Chapitre 10 Annotations lexicales et syntaxiques

Pour aller au-delà de l’analyse du seul lexique et de l’analyse de la cooccurence des termes à travers les textes, comme le font les méthodes de typologie et d’analyse factorielle des correspondance depuis longtemps, il est néçessaire d’analyser le texte en tenant compte de ses propriétés syntaxiques. Depuis une dizaine d’années, des outils puissants, les annotateurs, sont proposés de manière accessible.

Les plus connus sont Spacy, Stanford NLP et désormais UDpipe.

Dans l’environnement r différentes ressources sont disponibles : Quanteda, clean_nlp, Udpipe, …

Ils sont disponibles désormais dans de nombreuses langues même si la richesse et la précision obtenues varient d’une langue à l’autres

Ils s’appuient sur des corpus plus ou moins étendus et spécialisés d’annotations manuelle : les Treebanks.

Ils réalisent souvent plusieurs tâches dont les principales sont les suivantes :

  • Tokeniser
  • Lemmatiser
  • Identifier les parts of speech
  • Identifier les dépendances syntaxiques
  • Identifier les entités nommées.
  • identifier les co-reférences.

10.1 Stemmatisation, lemmatisation et synonymisation

Les mots prennent des formes variées, il peut être intéressant dans certains cas de réduire cette variété et ne considérer que l’idée des mots. Deux techniques sont disponibles

10.1.1 la stemmatisation et la lemmatisation

c’est le fait de ne conserver que le radical des mots, pour regrouper sous le même radical toutes les variétés morphologique d’un même mot. Il s’affit dont d’enlever les syllabes qui correspondent aux suffixes et aux flexions du mot (mode singulier ou pluriel, genre, desinences : conjugaison et déclinaison etc..). On parle aussi de racinisation.

Un lemme est un mot racine (ne pas confondre avec le radical), san inflexions de genre, de mode, de conjugaison ou de déclinaison. C’est généralement celui qu’on trouve dans les dictionnaires. Il s’agit de ramener un terme, à sa forme la plus simple qui en français est l’infinitif/masculin-singulier).

10.1.2 Synonymisation

le cas de wordnet et l’invention des synset

synonymes, antonymes, hipponyne, hyperonymes…..

https://cran.r-project.org/web/packages/wordnet/vignettes/wordnet.pdf

10.2 Part of Speech (POS)

Dans une phrase les mots n’on pas la même valeur. Certains sont des nombres propres, ils se réfèrent à ce que nous venons de voir, c’est à dire des entitées nommées, d’autres désignent des catégories d’objet. Ce sont les noms communs qui se rapportent à des catégories de choses. Un marteau - si j’en avais un - peut être n’importe quel marteau, la masse qui casse la pierre, ou ce petit marteau qui me permet d’enfoncer un clou dans le cadre du tableau.

Des typologies universelles ont été construites, elles recouvrent des typologies plus spécifiques à certaines langues. Les désinences du latin ont par exemple disparu du français. Cette forme est spécifiques au latin, on la retrouvera en allemand. La notion de morphosntaxique désigne présisément que les variations de formes des mots dépendent d’une règle syntaxique. Prenons le verbe, et sa forme, “être”, dont la forme au passé simple est “était”. La forme des mots change, mais l’idée reste.

Une catégorisation en 17 éléments est proposée. En voici les éléments et les définitions

Un petit exemple avec le package UDpipe.

Les trois première colonnes identifient le document, les phrases et les mots. Des lemmes sont proposées. La colonne UPOS donne les part of Speech universel.

10.3 Dépendances syntaxiques

C’est à Lucien Tesnière que l’on doit l’idée de la grammaire de la dépendance qui est au coeur du NLP moderne. L’idée est de déterminer au niveau de la phrase les relations entre ses termes de manière hierarchisée selon un principe de gouvernant à subordonné.

Verdelhan-Bourgade (2020) résume son analyse de manière précise et concise :

  • “Tous les mots n’ont pas le même statut. Les mots pleins, qui « expriment directement la pensée » (p. 59), relèvent de quatre catégories structurales : les substantifs (notés par O), les adjectifs (A), les verbes (I), les adverbes (E). Les mots dits vides (souvent désigné de manière pratique par les stopwords aujourdh’ui) précisent le sens des autres, ou servent à marquer des relations.La connexion établit la relation entre mot régissant et mot subordonné. Lorsqu’un régissant commande un subordonné, cela constitue un nœud, qui peut se faire à partir d’une des quatre espèces de mots pleins”.

Il en donne l’exemple suivant : « Très souvent mon vieil ami chante cette fort jolie chanson à ma fille » où l’on peut repèrer:

  • un nœud verbal, central, qui commande des actants (ami, chanson, fille) et des circonstants (souvent). La valence est « le nombre de crochets par lesquels un verbe peut attraper des actants », à peu près équivalente à « voix ».
  • les nœud substantivaux (ami, chanson, fille), qui commandent des compléments (mon, vieil, cette, jolie, ma)
  • le nœud adjectival (jolie) qui commande ici le subordonné ‘fort’
  • le nœud adverbial, très’ étant subordonné à ‘souvent’. "

10.3.1 Arbre syntaxique

L’arbre syntaxique est obtenu en analysant les relations entre les termes. Nous poursuivons avec UDpipe, l’annotation précédente a déjà fait le travail. A chaque mot deux informations sont associées : la première est l’index du mot auxquel il se rapporte, la seconde est la nature de la relation.

Onn utilise ici une fonction écrite par (bnosac](http://www.bnosac.be/index.php/blog/93-dependency-parsing-with-udpipe) pour donner une représentation graphique de l’arbre.

arbre de dépendance

Figure 10.1: arbre de dépendance

10.3.2 Vers des application plus générale

Dans la phrase precédente on note que funèbre est l’adjectif de journée. On peut être tenté de retrouver ces relations qui caractérisent des choses (les “nouns” ou noms choses) à des adjectifs. On souhaite faire une liste de ces paires.

L’exemple va être court : un poème de Maupassant

On va donc construires un tableau lemme_cible x lemmes_associés, les premiers risqueront d’êtres les noms communs, les seconds leurs adjectifs.

le tableau obtenu est en fait la structure d’un graphe bipartite. la représentation passe par un de igraph avec pour paramètres importants : * Taille des arcs (edge) : est proportionnelle à la force du lien ( nombre de relations) * Taille des noeud : proportiennel au rangs du noeud. * Couleur et forme des noeuds : lemme et lemme cible. * Un algorithme de force de Fruchterman and Reingold (1991) est employé pour représenter les positions relatives des mots et minimiser les superpositions.

Dessiner le réseau

## IGRAPH 6fa6f3e UNWB 36 20 -- 
## + attr: type (v/l), name (v/c), weight (e/n)

10.4 reconnaissance d’entités nommées

En français courant les entités nommées correspondent largement à l’idée de noms propres. Un nom propre à une entité. Une chose qui est est indépendemment des catégories qui peuvent l’étiqueter. John Dupont, né le 19 février 1898 à Glasgow et abattu à Verdun le 8 août 1917, est un personnage unique. John Dupont ne désigne par une catégorie, mais bien une personne singulière. La designation peut cependant être ambigüe, il y a un “Paris, Texas.”, et un Paris sur Seine. La morphologie ne ressout pas l’ambiguité.

les entités nommées appartiennent à différentes catégories d’objets : des noms de lieux, des noms de personnes, des noms de marques, des acronymes d’organisation,

Elles ne représentent jamais une catégorie mais une unité singulière.

https://cran.r-project.org/web/packages/nametagger/nametagger.pdf

10.5 co-reférence

References

Fruchterman, Thomas M. J., and Edward M. Reingold. 1991. “Graph Drawing by Force-Directed Placement.” Software: Practice and Experience 21 (11): 1129–64. https://doi.org/10.1002/spe.4380211102.

Verdelhan-Bourgade, M. 2020. “Lucien Tesnière, Professeur de Linguistique à Montpellier de 1937 à 1954. L’aventure d’une Grammaire.” Bulletin de L’Academie Des Sciences et Lettres de Montpellier 51 (4562).