Alexa ne servirait à rien… C’est quoi un assistant vocal utile ?

Dr. André JOLY, SPIX industry – Mars 2022

andre.joly@spix-industry.com

Articles,Documentation

mars 13, 2022

L’agence d’analyse économique Bloomberg s’inquiète de l’avenir des assistants vocaux comme Alexa, Google-Home ou Siri, jugés inutiles par leurs utilisateurs. SPIX industry[1] revient sur cette analyse et propose une explication. Enfin, l’application des technologies de la voix au domaine industriel permette-elle de valider l’utilité et l’utilisabilité de solutions vocales ?

Alexa et les assistants vocaux à la maison : quelles utilisations

Les agences PwC et Bloomberg ont analysé l’usage des assistants vocaux grand public, afin de comprendre les motivations des utilisateurs et les tendances à venir. L’intérêt de comparer leurs études réside dans la prise en considération des assistants vocaux installés sur des smartphones et des enceintes connectées pour l’un, et uniquement sur des enceintes connectées pour l’autre. Les différences sont majeures et pertinentes pour notre analyse industrielle : dans un cas le dispositif matériel est mobile et propose un retour visuel, dans l’autre une interface purement vocale.

Les résultats de l’analyse de PwC en 2019[1] ne créent pas la surprise. Les utilisateurs jeunes adoptent la technologie rapidement. Les plus âgés sont plus lents, mais confiants dans leur utilisation future. L’utilisation de ressources d’assistance vocale reste principalement sur téléphone mobile (57%), l’utilisation des enceintes connectées arrive après (27%).

L’étude de PwC vient confirmer l’utilisation attendue de cette technologie dans un contexte privé pour des tâches simples. Dans l’ordre pour les 5 première :

  • Faire une recherche sur un moteur de recherche
  • Poser une question rapide
  • Vérifier la météo ou les dernières nouvelles
  • Jouer de la musique
  • Lancer un minuteur

L’étude de Bloomberg [2] publiée en 2021 (réalisée 1 an après celle de PwC) nous apprend que les utilisateurs de l’assistant vocal Alexa d’Amazon exploitent principalement le dispositif équipé d’un écran, donc avec un retour visuel. Ces dispositifs sont néanmoins fixes, la majorité du temps dans le contexte du domicile. Les utilisateurs de Alexa à la maison demandent dans l’ordre :

  • Jouer de la musique
  • Lancer un minuteur
  • Allumer ou éteindre des lumières

En parallèle, l’éditeur lui-même sur le site promotionnel d’Amazon-Alexa[3] propose l’utilisation de l’assistant vocal pour les fonctions suivantes : « Alexa est toujours prête à répondre à vos questions, vous raconter des blagues, jouer de la musique, trouver le trajet le plus rapide pour aller au travail, ajuster le thermostat grâce à vos appareils connectés compatibles, et bien plus ».  Répondre aux questions, se distraire, jouer de musique : la proposition est cohérente de l’utilisation constatée par PWC et Bloomberg.

Premier bilan de l’usage des assistants vocaux domestiques

Le premier bilan tiré des études précédentes est donc sans appel : les assistants vocaux grand-public sont donc utilisés principalement pour des tâches très simples, et majoritairement sur smartphone avec un retour visuel.

Qu’en est-il de l’adoption et de l’utilisation récurrente des enceintes connectées, et des retours de leurs utilisateurs. La seconde partie de l’étude de l’agence Bloomberg[1] est beaucoup plus inattendue.

Cette deuxième partie de l’étude montre que les principales fonctions d’Amazon-Alexa sont comprises par leurs utilisateurs dans les 3 heures suivant leur installation. Par la suite, 25% d’entre eux délaissent ces dispositifs dans les 2 semaines suivantes… ça laisse rêveur et en même temps ! Les raisons invoquées pour expliquer cette constatations les suivantes :

  • Les fonctions accessibles et utilisées sont jugées peu utiles

Effectivement, les fonctions utilisées mises en évidence par les études précédentes ne sont pas révolutionnaires par rapport à l’utilisation tactile d’une tablette ou d’un smartphone. La plus-value de ces fonctions reste du domaine soit du jeu, soit du gadget, ou encore du confort. L’étude PwC[2] montre que des fonctions à beaucoup plus forte plus-value (réservation d’un restaurant ou de billet d’avion par exemple) ne sont pas encore utilisées (16% et 0% respectivement), mais sont largement souhaitées pour l’avenir (32% et 26% respectivement). Les utilisateurs cherchent donc à simplifier des tâches complexes à forte plus-value par l’utilisation de la voix et de l’assistance vocale.

  • Les utilisateurs sont concernés par la confidentialité de leurs données

Plusieurs études récentes rapportées par les médias[3],[4] démontrent que les capacités des assistants vocaux grand public comme Alexa, Google-Home ou Siri sont améliorées par l’analyse des échanges entre les utilisateurs et leur assistant. Cette analyse passe obligatoirement par l’écoute des commandes vocales énoncées par les utilisateurs pour obtenir le service demandé. Le doute sur la confidentialité des données est donc semé dans l’esprit des utilisateurs.

  • Les suggestions spontanées faites par Alexa énervent les utilisateurs

Enfin, le rapport Bloomberg remonte un constat sans appel : l’utilisateur accepte mal que son assistant vocal lui donne des ordres, ou lui fasse des suggestions d’actions ou d’achat de manière non sollicitée. Premièrement, cela prouve que l’assistant exploite les requêtes précédentes de l’utilisateur ce qui vient renforcer sa méfiance vis-à-vis de ses données personnelles. Enfin, les utilisateurs ont du mal à ce que leur assistant vocal soit à l’initiative de l’échange : l’humain veut garder l’initiative.

Ce premier bilan met en évidence un manque de maturité du grand public quant à l’utilisation de fonctions d’assistance vocale sans interface visuelle. Ainsi, l’utilisation principale d’Alexa est faite avec un écran qui permet de valider la bonne prise en compte de l’action demandée par la voix, ou de visualiser l’information demandée.

Ensuite, les fonctions disponibles sont jugées peu utiles par leurs utilisateurs. Effectivement, un assistant vocal doit comprendre le contexte de son utilisation pour être « intelligent ». Dans le domaine du grand public, l’utilisateur (à juste titre) ne souhaite pas partager trop de contexte avec son assistant (où je suis, ce que je fais, ce que j’aime, mon humeur, …). Les fonctions accessibles sont donc nécessairement simples.

Enfin l’absence ou la sous-utilisation des capacités de dialogue des assistants vocaux cantonne leur utilisation à des actions de question-réponse primitives. La boucle est bouclée : le besoin d’un retour visuel par manque de maturité des utilisateurs sur le dialogue, et le manque de contexte pur établir un dialogue intelligent restreint fortement l’utilisation des capacités des assistants vocaux.

Alors c’est quoi un assistant vocal utile ?

Pour qu’un assistant vocal soit considéré comme « utile », il faut qu’il rende un « service à forte valeur ajoutée » à l’utilisateur et qu’il apporte un « retour sur investissement » (un bénéfice) à celui qui l’a acheté (le payeur).

Comme nous l’avons déjà vu dans un précédent article[1], pour les assistants vocaux grand public le « payeur » est également le « fournisseur » de la technologie. Les assistants vocaux Alexa, Siri ou Google-Home sont effectivement mis à disposition gratuitement des utilisateurs, les contres parties non financières étant largement sous-estimées. Le modèle économique de ces assistants porte donc de manière intrinsèque une partie de la frustration des utilisateurs.

Tel que précisé dans une définition de Wikipedia[2],l’intelligence d’un assistant vocal (ou assistant personnel) repose sur la connaissance de l’utilisateur et l’historique des données, autrement dit des bases de connaissances. Ces connaissances dans un contexte grand public sont disponibles en grande quantité, mais obligatoirement imparfaites. Il en résulte donc des services rendus à l’utilisateur qui sont simples et sans réelle valeur ajoutée.

Nous pourrions en conclure que la situation est désespérée… Heureusement non ! Il suffit de trouver des domaines d’application pour des technologies d’assistance vocale qui permettent de remplir les deux conditions : « valeur » pour l’utilisateur et « bénéfice » pour le payeur.

Depuis plusieurs années, SPIX industry[3] développe une technologie d’assistance vocale intelligente au service de l’industrie, et plus particulièrement des techniciens. Pourquoi cet assistant rempli les deux conditions précédemment énoncées ?

Dans le contexte actuel de développement de l’industrie 5.0[4], les opérateurs manuels sont de plus en plus confrontés à des tâches numériques. La digitalisation des tâches, le déploiement de logiciels complexes de gestion des procédures, des interventions, des rapports… demande aux hommes et aux femmes de terrain de l’industrie d’utiliser des applications numériques sur smartphone, ou sur tablette. Problème : ce n’est pas leur métier, ils ont souvent des gants, et n’aiment pas ce type de tâche sur lesquelles ils « perdent » beaucoup de temps.

L’utilisation d’un assistant vocal en interface des logiciels qu’ils utilisent déjà sur tablette ou smartphone, leur simplifie les tâches numériques. Ils réalisent les actions digitales qui leur sont demandées, mais de manière plus simple et en gardant les mains et les yeux libres. Ils conservent le support visuel de leur logiciel habituel, ce qui leur permet de monter en maturité dans l’utilisation de la voix. Un jour, ils pourront utiliser leur logiciel sans regarder l’écran !

Dans ce cas, la valeur ajoutée et le service rendu à l’utilisateur sont élevés, car l’assistant vocal dispose de l’ensemble des connaissances nécessaires à son fonctionnement. En effet, les procédures, ordre de tâche, instructions de travail ou formulaires de rapports, complétés par des bases de vocabulaire et d’ontologies propres à l’industrie, constituent l’ensemble des connaissances utilisées pour définir le contexte dans lequel l’utilisateur fait appel à son assistant vocal.

Les utilisateurs ont confiance dans cet assistant vocal intelligent Spix, car les règles d’utilisation de leur voix et des données de l’entreprise sont claires. En effet, les SKILLS de Spix[5] permettent d’assembler un assistant vocal intelligent embarqué, sans connexion à un cloud externe et qui ne nécessite pas d’accès à des données d’entreprise en temps réel. Il fonctionne en interface des logiciels métiers des opérateurs, ces logiciels restent en charge de la gestion des données métiers qui leur sont propres. Du coté opérateur, leur voix n’est pas enregistrée, ils peuvent parler à leurs collègues sans interférences avec leur assistant, et le contexte d’utilisation est limité à leur contexte de travail. L’opérateur reste toujours à l’initiative de l’interaction avec son assistant, sauf en cas d’alerte de sécurité. Mais dans ce cas, la plus-value de l’intervention de l’assistant est évidente.

Du point de vue de l’industrie, l’assistant vocal Spix de SPIX industry est un logiciel commercial. La technologie développée par l’entreprise respecte les règles de confidentialité des données des industriels, s’interface avec leurs logiciels métiers par des librairies[6] et répond aux contraintes de validation pour une utilisation opérationnelle en milieu industriel. Ainsi, l’industrie fait l’acquisition de cet assistant vocal pour permettre à ses techniciens et opérateurs de terrain de mieux utiliser leurs applications numériques.

Dans ce cas, l’industriel est le payeur. Son retour sur investissement se trouve dans la réduction de la non-qualité de production, la réduction des temps à non-valeur ajouté de ses opérateurs, l’augmentation de la sécurité des interventions humaines. Enfin, l’industriel trouve son bénéfice dans l’augmentation des données qu’il est capable de collecter en temps réel sur les opérations de terrain effectuées par ses techniciens.

Conclusion

Comme le dit Greg Gottesmann, co-fondateur de Pionee Squar Labs[1] à propose de l’analyse de Bloomberg sur l’utilisation d’Alexa : « It takes time to marinate. We’re still early. Five years from now, 10 years from now, people will be using Alexa for much more than those three things.” Très bien, mais entre maintenant et dans 5 ans on fait quoi ?

Chez SPIX industry, nous croyons dans le développement de solutions d’assistance vocale intelligente sur des verticaux métiers pour lesquels il est possible d’assembler les composants nécessaires pour assurer la qualité du service rendu à l’utilisateur et satisfaire l’investissement de l’acheteur. Les développements en cours dans l’industrie en sont le signe !

Références

[1] https://www.spix-industry.com

[1] https://www.pwc.com/cisvoiceassistants

[2] https://www.bloomberg.com/news/articles/2021-12-22/amazon-s-voice-controlled-smart-speaker-alexa-can-t-hold-customer-interest-docs

[3] https://www.amazon.fr/

[1] https://www.bloomberg.com/news/articles/2021-12-22/amazon-s-voice-controlled-smart-speaker-alexa-can-t-hold-customer-interest-docs

[2] https://www.pwc.com/cisvoiceassistants

[3] https://www.cnetfrance.fr/

[4] https://www.lefigaro.fr/secteur/high-tech/

[1] https://www.spix-industry.com/2021/assistants-vocaux-quel-est-prix-du-gratuit/

[2] https://fr.wikipedia.org/wiki/Assistant_personnel_intelligent

[3] https://www.spix-industry.com

[4] https://www.spix-industry.com/2021/quest-ce-que-industrie-50-peut-faire-pour-vous

[5] https://www.spix-industry.com/service-vocal-intelligent-digitalisation-industrie/

[6] https://www.spix-industry.com/service-vocal-intelligent-digitalisation-industrie/

[1] https://www.psl.com/