Eulexis  1.2
Eulexis Documentation

Eulexis est un logiciel de lemmatisation de textes en grec ancien, libre et gratuit, disponible pour Mac OS et Windows. Cette application est développée par Philippe Verkerk. Elle est mise à disposition sous licence GNU GPL v3, sans aucune garantie, mais avec l'espoir qu'elle vous sera utile, et reste soumise à corrections et améliorations. Si vous remarquez des erreurs ou des coquilles, n'hésitez pas à nous les signaler à l'adresse eulex.nosp@m.is@b.nosp@m.iblis.nosp@m.sima.nosp@m.-cond.nosp@m.orce.nosp@m.t.fr !

Nouveautés de la version 1.2

Crédits

Un grand merci à Philipp Roelli, André Charbonnet, Mark De Wilde, Gérard Gréco, Peter J. Heslin, Yves Ouvrard, Eduard Frunzeanu et Régis Robineau.

Mise à jour 2020-01-18

Liste de vocabulaire et correction OCR

Suite à une demande de David Carter, j'ai introduit la possibilité de générer une liste de vocabulaire au format CSV à partir de n'importe quel texte grec. C'est juste un nouvel élément dans le menu Fichier, appelé txt2csv. Il ouvre une fenêtre de dialogue pour ouvrir un fichier texte (avec extension txt) et produira un fichier CSV du même nom (mais avec l'extension csv). Si le fichier de destination existe déjà, il sera écrasé sans avertissement.

NB : il n'est pas nécessaire d'ouvrir le texte dans la fenêtre de texte d'Eulexis et de le lemmatiser. Tout se fait de fichier à fichier.

Cet outil txt2csv a deux options supplémentaires :

Liste de vocabulaire

Le fichier CSV produit par txt2csv est une première étape pour la création de la liste de vocabulaire associée au texte. En effet, il propose toutes les possibilités (connues) de lemmatisation pour les formes du texte. Ainsi, pour obtenir le résultat final (c'est-à-dire le lemme unique qui correspond à la forme dans ce contexte), l'helléniste doit lire tout le fichier et supprimer (ou parfois corriger) les lignes inutiles.

Le fichier CSV propose un lemme par ligne. Si une forme du texte peut être associée à plusieurs lemmes, il apparaîtra dans autant de lignes que nécessaire. Une ligne est formée de 6 champs, séparés par une tabulation (certains l'appelleront un TSV, mais cela reste un format de valeurs séparées par un caractère). Les champs sont :

TextiColor et correction OCR

Le TextiColor a été introduit pour la première fois dans Collatinus à des fins pédagogiques (demandé par Jan Bart, un enseignant néerlandais). Il a également été réalisé que l'ajout de couleurs au texte peut simplifier la recherche de fautes de frappe et d'autres erreurs liées à l'OCR.

Lorsque l'option TextiColor est cochée, l'outil txt2csv produira, avec le fichier CSV, un deuxième fichier (avec l'extension htm) qui contient le texte original, mais avec quelques mots mis en évidence. Ces mots sont écrits en gras, et ils correspondent à des formes qui n'ont pas été bien reconnues par le lemmatiseur. La gravité du problème est codée dans la couleur.

Le fichier htm (qui peut être facilement converti en un fichier odt pour l'édition) donne ainsi quelques indications pour corriger le texte. Les mots qui apparaissent en gras doivent être vérifiés (mais ils pourraient être corrects). Pour les mots bleus, des suggestions peuvent être trouvées dans la liste de vocabulaire. En cas de désaccord sur les signes diacritiques, la forme approximative (trouvée dans la base de données) est donnée entre parenthèse après le lemme. Par exemple, si le texte contient οὐδε, la lemmatisation donnera (entre autres solutions) οὐδός2 (οὐδέ).

NB : si l'erreur OCR conduit à un mot existant, le TextiColor sera incapable de le révéler.

Histoire

Ce projet est la version hors ligne d'Eulexis sur Biblissima. Il est écrit en Qt.

Initialement, il était prévu pour ouvrir des dictionnaires grecs comme Collatinus le fait. Ensuite, il a été étendu avec un lemmatiseur de forme, qui utilise, avec l'accord de l'auteur, les analyses grecques de Diogenes. J'ai changé le format du fichier pour permettre la traduction dans d'autres langues, actuellement français et allemand. Notez que ces traductions ont été obtenus avec Google Trad et doivent maintenant être corrigées.