Divagation #02 – IHM du futur

Penser l’interface homme-machine du futur

Tour d’horizon des nouvelles technologies, des défis et des possibilités (au sens d’affordances) qu’elles offrent

Réalité virtuelle, réalité augmentée ou mixte.

Intellligence artificelle et interface fondée sur la conversation.

Différence entre IA et marketing traditionnel.

Imaginer un modèle mental de l’IA qui soit opérationnel.

VR

L’atout et l’inconvénient de la VR, c’est l’immersion.

Elle donne l’illusion d’être transporté dans un autre monde et de pouvoir interagir avec des objets ou des images qui ne sont pas immédiatement accessibles dans le monde physique.

Par conséquent, la réalité virtuelle apparaît mieux faite pour apprendre, jouer ou voyager. Elle peut aussi être un bon outil de création, si l’objet créé est de nature virtuelle ou en 3D.

Elle est susceptible d’engager la totalité du corps, et pas seulement la vue, l’ouïe et les mains.

Elle doit donc être privilégiée dans toutes les situations qui requiert ou qui bénéficieraient d’inputs corporels : gestes, posture, etc.

On peut penser au sport, à l’apprentissage notamment. Elle est déjà utilisée pour former les pilotes d’avion.

Inconvénient majeur : la dissonance qui existe encore entre l’action et l’image, les signaux envoyés par la vue et ceux envoyés par le système vestibulaire qui peuvent conduire à des symptômes de nausée.

La situation s’est toutefois largement améliorée.

AR, MR

La réalité augmentée ou mixte est une forme intermédiaire, où des éléments virtuels viennent se superposer aux éléments réels. Dans la version augmentée, le réel et le virtuel n’ont pas d’interactions. Dans la version mixte, les éléments virtuels s’adaptent au monde physique.

Les applications similaires à celles de la VR, auxquelles il faut ajouter toutes les possibilités offertes par l’interaction avec l’environnement.

Dans le monde de l’éducation, donner la possibilité de « voir » ce qui se passe au niveau moléculaire dans une réaction chimique par exemple, intégrer les seigneurs et serfs du Moyen-Age dans la visite du château-fort, etc

Cela peut aussi donner des applications de guidage, ou plus intrusif des publicités contextuelles.

La question est de savoir si ce type d’interface pourrait devenir une interface universelle pour toutes nos interactions avec les machines.

Example : expérience où des écrans virtuels sont placés à côté d’écran réel, et la personne peut travailler de l’un à l’autre sans interruption.

Un des problèmes actuels de la VR est la fatigue physique : les objets doivent être manipulés avec les mains, les bras en l’air. Sans compter le poids des casques de VR qui génèrent des tensions et des douleurs dans le cou. On peut penser que les dispositifs de réalité virtuelle / augmentée ou mixe vont progressivement être miniaturisés et allégés, mais je ne pense pas réaliste de demander aux humains de conserver les bras en l’air pendant trop longtemps. Si les réalités alternatives deviennent plus fréquentes et prennent le bas sur des systèmes 2D sur écrans, ce sera seulement une fois qu’un meilleur système d’interaction aura été trouvé.

La voix est une possibilité poursuivie par la plupart des firmes aujourd’hui, notamment pour communiquer avec leurs assistants : Alexa, Google home, Siri. Je dois avouer que j’ai un biais personnel anti-interface vocal. Je trouve embarrassant de parler à voix haute, et c’est sans compter avec le fait que la plupart ne comprennent pas mon accent français quand je parle anglais.

L’interface vocal me paraît malgré tout mal adaptée à de nombreuses situations. Il peut y avoir des problèmes de confidentialité associés avec le fait de s’exprimer à haute voix. Ce problème peut être contourné par un dispositif qui arrivent à capter les sub-vocalisations. Mais cela ne résout pas le problème de la barrière de compréhension. Même avec les avancées en intelligence artificielle, les assistants virtuels sont encore loin des performances d’un humain. Ils leur manquent de nombreuses informations de contexte pour inférer le sens exact d’une déclaration ou d’une commande. Les ordres doivent être formulés d’une manière précise pour qu’ils soient exécutés sans erreur, ou bien ils doivent prendre la forme d’un échange scripté, que les designers veulent faire passer pour une conversation, mais qui est bien loin d’en être une.

Il faudrait aller plus loin, et que tous les objets dans notre environnement aient ainsi une interface à distance, que l’on puisse solliciter d’un geste ou d’un coup d’œil. Je regarde la télé : une interface virtuelle spécifique et contextualisée apparaît devant mes yeux, je tourne mon regard vers le frigo, l’interface change pour lister le contenu et ce qui doit être renouvelé, je lève les yeux vers le lustre, un interrupteur apparaît.

Alexa n’aurait pas besoin d’écouter en permanence ce que j’ai dit pour répondre quand j’ai besoin d’elle. Je pourrais la solliciter d’un regard (peut-être à terme seulement d’une intention).

En attendant d’avoir une interface directe avec le cerveau, les systèmes d’eye-tracking sont suffisamment développés pour fonctionner. Nos yeux ont tendance à constamment bouger, mais si l’on regarde avec intention un objet ou une direction particulière, le temps passé sur cet objet est probablement suffisamment plus long comparé à un mouvement naturel pour être détectable par un algorithme. Si ce n’est pas l’interface que l’on souhaite, un simple battement des paupières pourrait suffire à la faire disparaître.

En termes de modèle mental, il n’y aurait là rien de révolutionnaire. Même si elles sont virtuelles les interfaces reprendraient les fonctions et codes, possiblement augmentés que les objets ont déjà dans l’espace physique.

Le fait de solliciter par le regard, et de fermer les yeux pour effacer, sont des gestes naturels du langage corporel entre humains : on va regarder avec insistance la personne dont on veut attirer l’attention, ou l’on va détourner ou fermer rapidement les yeux si l’on n’est pas intéressé par quelque chose.

AI et conversation

L’intelligence artificielle est un terme très vague qui regroupe de nombreuses formes : de « relativement simples » modèles mathématiques, à du deep learning utilisant des réseaux de neurones virtuels.

Sans entrer dans les détails du fonctionnement interne de ce nouveau type de computations, il faut cependant comprendre les différences de nature majeures qui existent entre l’informatique traditionnelle et le domaine de l’intelligence artificielle.

Pour bien comprendre à quel point ces deux aspects sont différents, deux chiffres :

Nombre d’informaticiens dans le monde (au sens large, qui savent programmer, quel que soit le language utilisé) – estimation :

Nombre de spécialistes d’intelligence artificielle dans le monde : 20 000 personnes.

Cela explique pourquoi les salaires de ces spécialistes sont si élevés, mais surtout cela illustre bien le fossé qui sépare les deux disciplines. Il est facile pour un informaticien de passer d’un langage à un autre, même si parfois les concepts sont différents (de la programmation objet à la programmation fonctionnelle, par exemple). Mais dans le cas de l’intelligence artificielle, le développement de pointe requiert des compétences qui sont bien au-delà de l’apprentissage d’un nouveau langage.

Bien sûr, des « modèles » d’intelligence artificielle sont mis à la disposition des débutants, pré-conçus, pré-entraînés, et permettent quelque peu de démocratiser les applications possibles de l’intelligence artificielle. Mais il s’agit là ni plus ni moins d’appliquer une recette sans comprendre comment ça marche.

Des initiatives (telles que OpenAI, à vérifier) essaient même de développer une intelligence artificielle capable de sélectionner le modèle le plus adapté à votre problème et vos données parmi une panoplie de modèles, afin de by-passer le goulot d’étranglement créé par le petit nombre de spécialistes, et de mettre à la portée d’un plus grand nombre pour éviter que les grands groupes tels que Google et Facebook aient seuls la mainmise sur ces développements et ces avancées.

On vient de citer la matière première nécessaire à une AI : le problème et les données. Formaliser le problème, décider d’une fonction d’optimisation est sans doute la tâche la plus cruciale.

Les données sont essentielles également, et doivent être idéalement massives. Il n’y a pas encore de modèles d’IA capable de faire des inférences précises à partir d’une quantité de données minimes. Cela parce que le fonctionnement d’une IA est fondamentalement différent de l’intelligence humaine, qui procède par abstraction et construction d’un modèle de causalité. L’IA, au contraire, soit utilise un modèle statistique, soit une forme de classification par couche de neurones.

Même si l’on peut constater que les résultats sont incroyablement précis (conformes à la réalité), il n’est pas possible pour le moment d’interpréter ce résultat, c’est-à-dire d’expliquer, en langage ordinaire, pourquoi ce résultat, étant donné ces valeurs d’entrées spécifiques.

Cela permet de distinguer de l’informatique traditionnelle : celle-ci est centrée sur des règles de traitement, des fonctions, opérant sur n’importe quelles données pourvues qu’elles respectent un certain format. L’utilisateur ne connaît pas non plus le détail des lignes de code qui permettent à un programme de fonctionner, mais il le maîtrise malgré tout de bout en bout : il va lancer le programme, l’arrêter, décider quelles données lui fournir, quels traitements leur appliquer. Le résultat obtenu peut être intégralement analysé, pas à pas, en fonction des commandes de l’utilisateur et des lignes de code qui ont été exécutées.

Ces opérations et ces possibilités étaient loin d’être évidentes pour les premiers utilisateurs des ordinateurs personnels. Il a fallu l’arrivée de l’interface graphique avec les premiers ordinateurs Apple, qui ont utilisé les métaphores du monde du travail pour rendre intelligible et accessible le système informatique à des non-informaticiens (espace de travail, répertoire, dossier, fichier…). Ces métaphores nous sont tellement familières qu’elles ne nous apparaissent plus comme telles, mais font maintenant partie de notre réalité à part entière.

Ces métaphores ne sont plus fonctionnelles dans le cas des programmes fondées sur l’intelligence artificielle.

–        Par leur design même, un programme d’IA se présente comme une boîte noire.

–        L’utilisateur n’a pas de contrôles sur les données utilisées en entrée pour entraîner le modèle. (De vastes quantités de données sont nécessaires, et un seul utilisateur ne peut pas fournir à lui tout seul suffisamment de données).

–        L’utilisateur n’a ni le contrôle, ni parfois même la connaissance des données qui le concernent et qui sont utilisées par le système d’AI (quels sont tous les facteurs pris en compte par l’algorithme de Facebook pour présenter un article dans le flux de News, ou pour Twitter de montrer ou non un tweet dans la timeline ?).

–        L’utilisateur n’a aucune idée de la fonction d’optimisation que les concepteurs de l’AI ont mis en place : il ne sait donc pas comment l’AI en arrive à ce résultat particulier (même les ingénieurs qui l’ont conçu ne le savent pas), mais il ne sait pas non plus pourquoi (avec quel objectif) ce résultat est produit.

Pourquoi la manipulation par AI est différente du marketing traditionnel
–        Différence d’échelles dans les impacts

–        Différence d’échelles et de nature dans les données d’entrées

–        Incapacité de l’utilisateur à critiquer de manière effective les résultats produits

L’absence d’interprétabilité et l’absence de modèles mentaux adéquats pour l’AI posent des problèmes essentiels de libre arbitre.

L’esprit critique repose sur notre capacité à comprendre le raisonnement suivi par un autre être humain, ou le fonctionnement d’une machine. C’est l’importance de la théorie de l’esprit, qui fait que l’on attribue des intentions similaires aux nôtres à d’autres entités qu’à nous-même. C’est ce qui nous rend capable de convaincre, mentir ou manipuler autrui. C’est ce qui nous permet de faire preuve d’empathie, d’élucider les motivations, les comportements et les paroles d’autrui.

L’esprit critique repose aussi sur notre capacité à imaginer des alternatives possibles et à comparer ces alternatives avec le choix qui nous est proposé. Savoir que l’auteur est une femme de 24 ans est important, parce que l’on peut utiliser des connaissances sur les femmes et cette catégorie d’âge pour mieux comprendre le texte. Mais c’est au moins aussi important d’imaginer à quoi aurait ressemblé une version écrite par un homme de 70 ans.

Face à des documents électroniques quels qu’ils soient, une personne pouvait toujours se représenter l’agent humain qui en était à l’origine et imaginer ses intentions et les opérations qu’il avait pu faire.

Face aux résultats de l’intelligence artificielle, les humains tentent de faire la même chose et se trompent complètement. Nos modèles mentaux ne nous servent plus à rien, et au contraire, peuvent nous rendre plus aisément manipulables.

La plupart des gens tendent à rationaliser les publicités qu’ils voient en ligne, sur un mode personnel : Google écoute ce que je dis, ou encore « ils » pensent que j’ai besoin de ça.

Google a fait un effort d’éducation, et permet parfois de cliquer sur Pourquoi je vois cette pub quand on tente de la fermer. On se rend compte alors que cela ne correspond pas du tout aux raisons que l’on s’était imaginé.

Trouver un modèle mental / des métaphores qui soient opérationnelles.

–        Qui permettent aux humains d’utiliser l’IA au mieux de ses possibilités

–        Qui leur permettent aussi de conserver un esprit critique vis-à-vis des résultats produits par l’IA

Comment :

–        Rendre visible la fonction d’optimisation

–        Donner la possibilité à l’utilisateur d’influencer cette fonction, et de pouvoir comparer les résultats en fonction des changements.

–        Rendre visible les données utilisées en entrée (et les données non-utilisées ou les aspects non pris en compte => de la même manière que l’on s’efforce d’imaginer ce qu’un autre auteur aurait pu écrire)

–        Donner un indicateur de fiabilité (cette donnée est essentielle pour améliorer la prise de décision cf. expérience dans cours de Stanislas Dehaene)

Interface conversationnelle : mauvaise métaphore ?

2 thoughts on “Divagation #02 – IHM du futur

Leave a Reply

Your email address will not be published. Required fields are marked *