La théorie de la simplicité de Jean-Louis Dessalles : la pertinence définie comme chute brutale de la complexité

loto-animatrice

Cela faisait longtemps que je voulais visiter le musée des Arts et Métiers à Paris et fortuitement je suis tombé sur l’exposition « Claude Shannon », l’informaticien et théoricien brillant qui a réussi à intéresser des chercheurs dans de nombreux domaines (« La Méthode » d’Edgar Morin, ou le site de François Roddier l’illustrent). Dans les tentatives d’établir une théorie formelle et prédictive dans le domaine des sciences sociales, le travail de Jean-Louis Dessalles est fascinant car il serait alors possible d’intégrer la notion de sens à la notion d’information de Shannon, ce qui représente un graal pour l’intelligence artificielle.

Jean-Louis Dessalles est professeur d’intelligence artificielle à l’ENST et créateur de la théorie de la simplicité. Il intervient ici dans le cadre des 100 ans de la naissance de Claude Shannon, créateur de la théorie de l’information en 1948. l’Institut Henri Poincaré organise plusieurs conférence, dont cette intervention lors du colloque scientifique du 27 octobre 2016.

Lien vers un très bon article sur le site de l’Ecole des Mines/Telecom.

Vidéo de la conférence de Jean-Louis Dessalles à l’IHP

Ci-dessous ma restitution écrite….

La pertinence est la question scientifique la plus importante : elle définit ce qui est digne d’être appris et mémorisé, dans le domaine des sciences et des techniques (1′). JLD s’est donc attaché à définir formellement ce que peut être la pertinence, et la relie à la théorie de l’information de Shannon.

Shannon est « décevant » : sa théorie de l’information porte mal son nom car elle est avant tout une théorie de la communication. Le sens est absent. Il en avait lui-même exposé les limites dans son article de 1956 « The Bandwagon », suite à l’enthousiasme qu’il suscitait dans de nombreux autres domaines (notamment en sciences sociales).

Il y a toutefois des choses à garder de la théorie shannonienne (9′) :

  • l’information est liée à la surprise
  • la redondance par la formule de l’entropie = somme des (p)log(p) (p étant une probabilité)

1) La surprise

Charles Dana : « Dog bites man » n’est pas une information. « Man bites dog » est une information, car il y a là une surprise (13′).

Article initial de JLD en 2002 : « la fonction shannonienne du langage : un indice de son évolution. » intégrait les probabilités et les logarithmes dans l’étude du langage, en application de la théorie de l’information.

Mais les probabilités ne suffisent pas, car le tirage du Loto « 1 2 3 4 5 6 » a un plus gros impact émotionnel qu’un tirage ordinaire, avec pourtant la même probabilité (6′).

Paradoxe de Kahneman et Tversky : on juge plus probable de croiser Cécile Duflot en 4×4 GPL qu’en 4×4. Pourtant les 4×4 GPL font partie de l’ensemble des 4×4, c’est incohérent.

-> La notion de surprise ne peut pas se baser sur les probabilités mathématiques classiques, à partir d’ensembles (ensemblistes).

Bob Dylan est le premier « Bob » à avoir eu un prix Nobel de littérature. Est-ce que la probabilité qu’ont les autres Bob d’avoir un jour le prix a augmenté ou baissé ? La question n’a aucun sens : la cause du prix Nobel de Dylan est indépendante de son prénom.

-> La notion de surprise ne peut pas se baser uniquement sur des probabilités statistiques (fréquentistes). Il faut tenir compte de la causalité des évènements.

-> La surprise résulte de biais cognitifs, car les humains sont mauvais en probabilités. JLD va même jusqu’à dire que les probabilités ne sont pas de la science mais un jeu mathématique. Le plus souvent, la fonction d’appartenance à un ensemble est mal définie.

2) La redondance

Liée à la notion de complexité de Kolmogorov (27′). La complexité est la mesure de la plus petite description possible, à laquelle on a enlevé toute redondance.

Si C est la complexité de Kolmogorov, p l’ensemble des programmes :

C(x) = Min sur p [ longueur(p) telle que M(p) = x], M étant une Machine.

Les fourmis sont aussi soumises à la complexité de Kolmogorov (54′), cf. travaux de Reznikova.

Le cerveau est une machine à compresser (28′) et éliminer les redondances: il est capable de reconstituer des parties cachées à partir d’informations minimales (exemple des figures géométriques superposées).

Il existe chez l’Homme un principe de simplicité maximale = de complexité minimale.

Il existe un vieux problème philosophique qu’on croit non résolu, celui de l’induction. Il est a priori impossible de choisir, sur la base de l’induction, la suite du nombre 12233444455555 ….

Ray Solomonoff (29′) affirme qu’il est possible de choisir selon le principe de simplicité maximale, mise en oeuvre par le cerveau humain « machine à compresser » (réponse : …666666). Un fréquentiste aurait par exemple pu répondre « 5 »…

Mais il y a maintenant un problème (32′) :

  • Par la notion de surprise : le plus improbable semble être le plus simple (série 1 2 3 4 5 6 au Loto)
  • Par la notion de redondance : la plus probable semble être le plus simple (suite 122333444455555…)

Pour Shannon et Kolmogorov, un ADN aléatoire contient le plus d’information. Or, un biologiste dira qu’un ADN très simple ou très aléatoire contient peu d’information (34′).

3) Distinguer probabilité a priori et probabilité ex post

Introduction de la notion d’inattendu (unexpectedness) U = Cw-C, différence entre deux complexités, qui se rattachent à la théorie shannonienne :

  • Cw : complexité causale (qui dépend des lois du monde)
  • C : complexité de description de Kolmogorov (résultat de la faculté du cerveau à compresser les informations).

JLD pose la probabilité ex post : p = 2 puissance (-U)

A une objection dans la salle, que U n’est pas calculable : les probabilités de toute façon ne sont pas calculables, comment calculer l’appartenance à un ensemble ? Et la complexité de Kolmogorov est calculable en « ressource limitée » (probabilité d’y arriver en un temps restreint).

-> Un événement est d’autant plus inattendu (surprenant) qu’il est difficile à générer et simple à décrire.

Nombreuses applications de la théorie (37′-55′) :

« J’ai été créé il y a 3 minutes avec tous mes souvenirs » est très improbable , car la complexité causale Cw est très élevée.

« Un bus RATP à Bucarest » a priori impossible (Cw très élevé) et qui devient très probable quand on sait que la ville les a rachetés (Cw minimisé par la suite).

Effet de distance dans le temps/espace : un train manqué pour cause de lacet défait sera plus crédible si le lieu du lacet défait est proche de la gare (simple à décrire).

« J’ai eu un accident avec une acrtice, y a-t-il plus de chance que ce soi Angelina Jolie ou Laurence Monot ? ». De façon subjective : Laurence Monot, car elle est plus complexe à décrire.

Rencontre fortuite d’une connaissance en un lieu lointain : U=C(endroit)-C(personne). Plus l’endroit est lointain, difficile à atteindre, et la personne « simple » à décrire, plus la probabilité est faible.

Application à l’art : un auteur connu a une complexité faible, la probabilité d’être surpris (=sens esthétique) est plus forte.

Plus on a de connaissances, plus on est capable de s’étonner (Note : et plus on cherche la connaissance…). Un enfant ne s’étonne de rien.

4) La pertinence

Une information est pertinente si U>0. Est pertinent « tout ce qui crée une compression ».

  • 5 pièces au hasard sur une table = 10 nombres (x,y) = 100 bits
  • 5 pièces alignées sur une table = 7 nombres (angle, rayon) = 70 bits

30 bits de compression. L’information « pièces alignées » est pertinente.

Les réseaux bayésiens sont un proxy pour la complexité causale (1h01′).

 

 

Publicités

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s