dimanche 5 décembre 2010

A0138 Litteratus Calculus: Leçon Numéro 3

La leçon numéro 2 nous a appris que des formats très simples comme SVC et SVCI, d'une part respectaient le principe de la représentation de toute information en langage naturel et d'autre part étaient extrêmement simples à manipuler par des programmeurs.

Cependant, le format SVC reste perçu par les utilisateurs -c'est à dire ceux qui vont écrire les inférons, vous et moi- comme trop contraignant, voire trop abstrait. Dire que ceci ou cela est un sujet ou un complément ou un verbe sous-entend un effort d'abstraction et surtout de régularité dans l'abstraction. Il faut décider de l'existence d'entités, les nommer, décider de relations entre elles, nommer ces relations, etc ... Cet effort d'abstraction, de modélisation, s'il est mille fois plus léger que l'abstraction pratiquée par un informaticien professionnel lorsqu'il modélise un système en UML,  en rebute plus d'un. Plus d'un et même, nous l'avons constaté avec Idéliance, plus de 95% de la population des cols blancs.

Donc nous en revenons à notre principe de la première leçon: il faut que les données soient représentées en langage naturel, c'est à dire en vrai langage naturel, et non  en leur forme contrainte SVC ou SVCI.

Il faut accepter comme inféron n'importe quelle phrase en langage naturel, par ailleurs aussi autonome et minimale que possible.

Pour ne pas l'avoir compris, le Web Sémantique promu par le W3C, qui s'en tient pour l'essentiel à un format SVC mâtiné d'un peu de SVCI, n'obtient que peu de succès, malgré la propagande incessante qui le supporte depuis 10 ans. De fait, le  Web Sématique a jusqu'à présent servi essentiellement à faire passer des thèses, monter des projets européens, et organiser des congrès internationaux.

Le vrai jeu, le grand jeu, en sémantique, c'est de travailler directement en langage naturel.

Nous avons évoqué, dans la seconde leçon, la démarche qui consiste à procéder à une analyse linguistique automatique (lexicale, syntaxique et sémantique) d'un inféron pour lui associer des caractéristiques analytiques:

-- forme lemmatisée des mots (verbes à l'infinitif, adjectifs au singulier ...)
-- arbre syntaxique (étiquetage des rôles: groupe nominal, verbe, complément, adjectifs, conjonctions ...)
-- dépendances syntaxico / sémantiques (tel groupe nominal est le sujet de tel groupe verbal, tel épithète se réfère à tel nom ...)

C'est  la voie suivie dans le projet Tanguy, où l'on indique par exemple que:

-- la chaîne "les chevaux" située entre les caractères 1230 et et 1243 de tel document correspond au lemme "cheval"
-- la chaîne "tirent" sitiée entre les catactères 1245 et et 1250 du même document correspond au lemme "tirer"
-- la première chaîne est le sujet de la seconde.

Tous ces résultats d'analyse linguistique automatique sont formalisés sous forme de graphe, donc de manière structurée, et sont de ce fait trivialement représentables en formats SVC ou SVCI.

Il s'agit là certainement d'une voie d'avenir, qu'il faut continuer à expérimenter.

Cependant, elle suppose l'existence d'analyseurs linguistiques automatiques extrêmement coûteux à développer et à maintenir pour chacune des langues naturelles utilisées, et souvent propriétaires. Le projet TANGUY utilise ainsi l'analyseur XIP de XEROX.

C'est pourquoi, en parallèle à cette voie "linguistiquement riche", nous expérimentons une solution plus légère, qui est pour nous le "calcul littéraire (ou litteratus calculus) par excellence".

Nous partons d'un ensemble d'inférons, c'est à dire de phrases en langage naturel, minimales et autonomes.

Pour tout couple d'inférons, nous calculons l'ensemble des mots qu'ils ont en commun.

Nous appelons ces ensembles de mots des "interlogos".

Exemple:

Soient les inférons:

I1: Pierre Martin a dit à IBM que Oracle allait racheter les activités CRM de SAP

I2: Pierre Martin est un spécialiste en intelligence économique

I3: Oracle est le leader du CRM en Amérique du Sud

I4: SAP développe ses activités CRM au Vénézuela

I1 et I2 donnent naissance à l'interlogos "Pierre Martin"

I1 et I3 donnent naissance à l'interlogos "Oracle CRM"

I1 et I4 donnent naissance à l'interlogos " SAP activités CRM"

I3 et I4 donnent naissance à l'interlogos "CRM"

Si l'on considère le graphe constitué des inférons et des interlogos dont ils sont issus, on obtient automatiquement un graphe qui décrit les points communs entre tous les interlogos.

On construit ainsi tous les chemins possibles qui relient les différents éléments de notre système d'information. Toutes les jointures potentielles - au sens des bases de données relationnelles- de notre système d'information sont ainsi représentées dans un formalisme très simple, sans que nous n'ayons eu d'autre effort à faire qu'à écrire des inférons, c'est à dire faire des phrases le plus naturellement du monde.

Le minimum de concession  :-) que nous pourrons faire à l'ingénierie linguistique sera de lemmatiser les formes des différents mots, avant de constituer les interlogos.

Notons au passage que le mécanisme des interlogos fait émerger sans effort -et sans linguistique- un premier niveau de concepts utilisés dans les inférons, ce que d'aucuns pourraient appeler une ontologie.

Nous appelons argos un tel graphe reliant inférons et interlogos.

Abandonner toute structuration, prétendre formaliser avec le seul langage naturel, est-ce bien raisonnable?

Nous nous posons la question dans la quatrième leçon.

5 commentaires:

cesteyries a dit…

Rendre Idéliance plus facile à utiliser est très important. D'un autre côté, l'utilisation d'Idéliance, tel qu'il existe, force à structurer ce que l'on a dans la tête, à développer son potentiel d'abstraction et c'est très bien aussi. Ce type d'exercice peut rendre de grands services aux élèves en particulier pour leur apprendre à réfléchir de manière innovante...

Argos : en référence au navire armé pour retrouver la Toison d'or ?

Jean Rohmer a dit…

Oui, c'est vrai que l'effort intellectuel pour utiliser Idéliance et ses contraintes est extrêmement gratifant en retour. La société Dallas qui l'a créée s'appelait d'ailleurs "Amplificateurs d'Intelligence" , et l'effort en question "l'Idécriture", avant que Sylvie Le Bars n'invente ce bel "Idéliance".

L'Idécriture attend ses Véronique et Davina.

On peut effectivement espérer que cela sera utile pour les étudiants. Témoignages bienvenus !

Mais dans mon esprit, le calcul littéraire est plus qu'un sur-ensemble d'Idéliance.

Quand à "Argos", c'est parce que en Grec ça veut dire "brillant, éclatant".Ca a donné à la fois Argent et Argument (Argile et Argutie aussi ...)

cesteyries a dit…

L'argent est blanc et brillant, l'argile (celle dont on fait les porcelaines) est blanche également, l'Argo affrété par les Argonautes devait l'être sans doute aussi, mais pourquoi "argument" ? : lié au brillant de la rhétorique ?

Jean Rohmer a dit…

Argos veut dire aussi "rapide", c'est ce sens qui s'appliquait au navire des Argonautes.
C'était aussi un nom courant pour un chien.

Argos, au sens de "rapide, prompt" a donné en latin "argutus" ingénieux ,spirituel et aussi "argutator" bel esprit discoureur, qui continue vers le péjoratif "argutiola" : vaine subtilité ...

ogerard a dit…

Attention aux autres connotations, pas toujours flatteuses: argos en grec veut aussi dire : glissant (le navire Argo est celui qui glisse sur les flots), luisant (comme la graisse), imperméable à l'eau, difficile à saisir, comme l'argile et le plumage des oies.