Collatinus 10.2.2

Lemmatiseur et analyseur morphologique de textes latins

Collatinus est une application libre, gratuite et multi-plateforme (Mac, Windows et Debian GNU/Linux), simple à installer et facile à utiliser.

Collatinus est à la fois un lemmatiseur et un analyseur morphologique de textes latins : il est capable, si on lui donne une forme déclinée ou conjuguée, de trouver quel mot il faudra chercher dans le dictionnaire pour avoir sa traduction dans une autre langue, ses différents sens, et toutes les autres données que fournit habituellement le dictionnaire.

En pratique, il est utile surtout au professeur de latin, qui peut ainsi très rapidement, à partir d’un texte hors-manuel, distribuer à ses élèves un texte inédit avec son aide lexicale. Les élèves s’en servent souvent pour lire plus facilement le latin lorsque leurs connaissances lexicales et morphologiques sont encore insuffisantes.

Principales fonctionnalités

  • lemmatisation de mots latins ou d'un texte latin entier,
  • traduction des lemmes grâce aux dictionnaires de latin incorporés dans l'application,
  • affichage des quantités (durée longue ou brève des syllabes) et des flexions (déclinaison ou conjugaison).

Historique

Collatinus était destiné, à l'origine, à produire des documents sur papier, et c'est encore souvent dans ce but qu'il est utilisé. Il a ensuite été perfectionné pour satisfaire de nouveaux usages et besoins :

  1. disposer, lorsqu'on lit un texte latin, d'une aide lexicale et morphologique immédiate et discrète,
  2. faire des recherches lexicales et stylistiques,
  3. donner aux élèves des tâches d'identification, de relevé, de transformation.

Principes de fonctionnement

Contrairement à la majorité des lemmatiseurs qui utilisent une liste de formes fléchies, Collatinus utilise un lexique contenant les lemmes et les informations nécessaires pour leur flexion. L'avantage est qu'avec 11 000 lemmes, Collatinus est capable de reconnaître plus d'un demi-million de formes. L'ajout du lemme correspondant à une variante orthographique (médiévale, par exemple) permettrait également de reconnaître toutes ses formes fléchies.

A partir du lemme et des désinences qui lui sont associées, Collatinus peut aussi donner des tableaux de flexion qui peuvent être utiles lors de l'apprentissage du latin.

Enfin, lorsque les quantités sont connues pour le lemme, Collatinus peut scander le mot et par là même tout un texte. Lorsqu'il scande un texte, Collatinus applique les règles habituelles d'allongement et d'élision.

La version actuelle de Collatinus, numérotée 10.2.2 ne diffère de la précédente que par ses ressources qui ont été mises à jour. La version 10.2.1 de Collatinus, datée d'avril 2014, apportait son lot de nouveautés :

  • Chaque entrée est accompagnée de ses longueurs (longues et brèves). On pourra ainsi se rendre compte des différences lexicales qui n'apparaissaient pas auparavant, comme pōpŭlus, peuplier, en face de pŏpŭlus, peuple.
  • Un onglet Dictionnaires permet d'avoir immédiatement accès à l'entrée correspondante de votre dictionnaire préféré : soit le célèbre Gaffiot, tombé dans le domaine public depuis quelques années, soit le Lewis & Short, 1879 en anglais.
  • Un onglet Scansion donne les quantités des formes fléchies, ainsi que celles d'un texte complet.
  • Une fonction Fréquences a été ajoutée. Elle compte le nombre d'occurrences des différents lemmes rencontrés dans un texte (dans l'onglet Lexique) ou répertorie les schémas métriques des vers (dans l'onglet Scansion).

Collatinus atteint maintenant une masse critique, qui risque de paraître pesante à certains. Les versions antérieures peuvent être trouvées sur le site Collatinus.org.

Collatinus est proposé en deux versions : standard et lite (personnalisable). Elles se distinguent par le nombre de dictionnaires pré-installés :

  • La version standard contient le Lewis & Short (1879, latin-anglais) en XML, le Georges (1913, latin-Allemand) en HTML, le Gaffiot (1934, latin-français) et le Calonghi (1896, latin-italien) en Djvu.
  • La version lite ne propose aucun dictionnaire, mais les moteurs de recherche pour les dictionnaires disponibles sont présents. En revanche, les fichiers volumineux ne sont pas installés (environ 100Mo par dictionnaire). Il est possible de la faire évoluer à tout moment vers la version standard en ajoutant des dictionnaires supplémentaires.

Le lexique s'est constitué au fil des années par les utilisateurs de Collatinus. Il compte environ 11.000 lemmes et permet de reconnaître 70% des mots utilisés dans la poésie métrique classique (nous remercions Luigi Tessarolo et Emanuela Colombi qui nous ont donné accès aux données de PedeCerto). Bien évidemment, ce n'est que sur les mots les plus rares que le programme achoppe.

Version standard (tous les dictionnaires inclus)

Version lite (sans dictionnaire)

Toutes les versions (par langue de dictionnaire et par système)

Mac OS Windows GNU/Linux
Français (Gaffiot 1934) logo Debian
Paquet Debian
Anglais (Lewis & Short 1879)
Allemand (K. E. Georges 1913)
Italien (Calonghi 1898)
Versions standard (4 dicos)

Sources

Télécharger les sources  (.zip)

Dictionnaires

Comment voir une page du Gaffiot sur Mac ?

Pour afficher une page du Gaffiot (ou du Calonghi et, plus généralement, de tous les dictionnaires présents sous la forme d'un fichier djvu), Collatinus utilise un programme externe qui convertit une page du fichier djvu en une image Tiff. Il faut donc installer l'utilitaire DjVuLibre (libre et gratuit) que l'on trouvera sur SourceForge : http://sourceforge.net/projects/djvu/files/

L'installation est standard et une application DjView (ou DjView.app) doit apparaître dans le dossier Applications. Vous êtes alors prêt pour consulter le Gaffiot dans Collatinus.

Je voudrais ajouter des lemmes dans le lexique de Collatinus. Où sont les données que Collatinus exploite ?

Sous Windows, toutes les données sont dans le répertoire ressources/ à côté de l'exécutable Collatinus.exe. Sur un Mac, elles sont un peu plus cachées. Pour les voir, il faut commencer par "Afficher le contenu du paquet" avec un clic droit (ou ctrl-clic) sur Collatinus.app. On avance alors dans l'arborescence Contents/MacOS/ressources et là on trouve tous les fichiers qu'utilise Collatinus. Attention, à manipuler avec précaution !

Si on veut ajouter des lemmes dans le lexique de Collatinus, on ouvrira lemmata.la avec un éditeur de texte ou un tableur (le fichier est au format CSV avec le caractère "|" comme séparateur de champs). On se réfèrera à l'aide en ligne pour connaître l'usage des divers champs. Si toutes les données sont correctes, Collatinus sait fléchir ce nouveau lemme et reconnaître dans un texte toutes ses formes. Pour donner une traduction à ce nouveau mot, il faut intervenir dans les lemmata.* (lemmata.fr pour les traductions françaises).

Des données erronées peuvent conduire à un comportement imprévisible. Si on prévoit de revenir souvent dans le répertoire ressources/, on peut en faire un alias que l'on met à un endroit plus accessible et qui pointera vers l'emplacement souhaité.

Je souhaite ajouter un dictionnaire à Collatinus. Comment faire ?

Tout d'abord, il faut distinguer deux types d'objets différents qui correspondent au sens courant de dictionnaire :

  • les lexiques : Collatinus les utilise pour reconnaître les formes fléchies et donner le sens du lemme correspondant. Ces fichiers sont nommés lemmata.* et se trouvent dans le répertoire ressources/.
  • les "vrais" dictionnaires (comme le Gaffiot, le Lewis & Short, etc...) : ces dictionnaires doivent être dans un format entièrement numérique XML/HTML (fichier .xml) ou dans un format image (fichier .djvu). Ils sont rangés dans le répertoire ressources/dicos et sont accompagnés d'un fichier d'index (fichier .idx) et d'un fichier de configuration (fichier .cfg). Eventuellement complétés par un feuille de transformation (fichier .xsl) et/ou une feuille de style (fichier .css).

Aujourd'hui, avec la version 10.2, l'utilisateur peut ajouter tout seul des lexiques (ou des entrées dans les lexiques existants) ou des dictionnaires en djvu, à ses risques et périls. Pour que le programme reconnaisse un nouveau dictionnaire, les fichiers mon_dico.cfg et mon_dico.idx, dans le répertoire ressources/dicos à côté de mon_dico.djvu, sont indispensables (et mon_dico ne sera visible qu'après redémarrage du programme).
On s'inspirera des fichiers existants pour constituer le fichier .cfg ; l'item "debut=" doit être un entier et indique le nombre de pages à sauter au début du fichier pour trouver le premier mot de l'index ; l'item "echelle=" est aussi un entier (en %) et permet d'agrandir (ou rapetisser) l'image pour l'affichage à l'écran, par défaut l'échelle vaut 160.
Le fichier .idx contient l'index du dictionnaire et doit être constitué à la main. Il faut relever le premier mot de chaque page et le mettre, en minuscules, sur les lignes successives du fichier. Les mots doivent être en ordre alphabétique, ce qui est en général le cas pour un dictionnaire mais attention aux exceptions (certains placent le "ph" avec le "f" entre le "e" et le "g").

Pour les dictionnaires en XML/HTML, la constitution de l'index doit passer par un programme et nécessite quelques manipulations trop complexes pour être décrites ici, mais nous pouvons le faire pour vous. Les règles générales pour le format du fichier .xml sont que chaque article occupe une ligne (et une seule) et que le lemme doit être facilement identifiable (par exemple, le premier mot entre des balises <H1></H1> ou l'attribut key de la balise EntryFree...).

Collatinus est développé par Yves Ouvrard, avec l'aide précieuse de Philippe Verkerk.

Il est publié sous licence GPL.

Remerciements : William Whitaker †, Jose Luis Redrejo, Georges Khaznadar, Matthias Bussonier, Gérard Jeanneau, Philippe Verkerk, Jean-Paul Woitrain, Philipp Roelli, Perseus Digital Library.