samedi 7 novembre 2009

A0037 Calcul Littéraire (Litteratus Calculus)

On oppose traditionnellement l'information structurée -celle des bases de données- à l'information non structurée -celle des documents en langage naturel.
C'est une vision bien éloignée de la réalité: le langage naturel est au contraire extrêmement structuré, avec des structures d'une complexité qui nous dépasse. Les bases de données, elles, sont structurées de manière très simpliste.
Il faut plutôt parler d'informations structurées complexes ou simplistes.

Rappelons l'étymologie de "complexe" : cum plexus = avec des plis
et de "simple" sine plexus = sans plis.

Les systèmes actuels qui essaient simplement (sic!) de ramener le "non structuré" du texte au "structuré" des bases de données sont et seront toujours dans des  impasses.
Nos effort doivent porter sur l'amélioration de  notre compréhension de la complexité du langage naturel. Il ne faut ni la nier,  ni essayer de la contourner.

Nous appelons "Calcul Littéraire"  ou "Litteratus Calculus" l'effort de compréhension de la complexité du langage naturel.

N.B. Le Diamant Sémantique "Litteratus Calculus" m'a permis de découvrir le Blog http://www.gazettelitteraire.com/

2 commentaires:

Hugolin a dit…

Bien parlé !

Dans la même optique, je recommande "Speach Act" de John R. Searle (1969). A la suite, d'Austin, Searle a réconcilié la philosophie analytique et la philosophie du language et déjoué le scepticisme de Wittgenstein.

Daniel Vanderveken a lui aussi une excellente approche du language naturel et particulièrement des verbes d'attitude psychologique dans "Les fondements de la logique des attitudes" (Daniel Vanderveken, 2007).

Jean-Marc Vanel a dit…

Cher Plexus

J'aime bien l'idée du langage naturel plus structuré que les données SQL ou même RDF "classiques".

Il y a en fait un moyen terme dans la complexité, qui exclut l'ambiguïté du langage naturel, tout en restant très expressif.
Cette ambiguïté tient surtout à deux choses: les ambiguïtés du lexique, et les références anaphoriques ( http://fr.wikipedia.org/wiki/Repr%C3%A9sentation_(grammaire)#Anaphore ). Ces deux traits ne sont pas essentiels au langage humain (sauf dans la poésie et l'humour!). Si on garde l'essentiel du langage naturel, et on enlève l'ambiguïté, il reste quelque chose, c'est ce qu'on appelle les Langages Naturels Contrôlés (CNL : http://fr.wikipedia.org/wiki/Langue_contr%C3%B4l%C3%A9e ).
Et ce qu'on peut obtenir alors est similaire à la logique des prédicats, qui est utilisée classiquement en Intelligence Articielle pour modéliser la connaissance, et en Mathématiques.
Parmi les dialectes CNL, j'utilise ATTEMPTO ACE ( http://attempto.ifi.uzh.ch ), qui possède une série d'outils en logiciel libre: ligne de commande, client simple Web Ajax, client Java Swing (via Protégé), Wiki Sémantique, raisonneur, traduction en ontologie OWL, ...
Avec Attempto, on peut même aller plus loin que la logique des prédicats, on peut exprimer des logiques modales, voir les exemples: ACE: http://attempto.ifi.uzh.ch/site/docs/ace_nutshell.html
Pour ceux qui aiment moins lire ;) , il y a 3 vidéos intéressantes sur ACE.