La révolution industrielle passera par les cols bleus

La révolution de l’assistance vocale industrielle passera par les cols bleus et les opérateurs de terrain

Plusieurs articles annoncent l’arrivée de la voix et de l’assistance vocale sur le lieu de travail dans les mois à venir. Les arguments avancés sont pertinents, mais insuffisants pour SPIX industry. La voix est utilisée dans l’industrie lorsque les fonctions proposées sont contextualisées et jugées utiles. C’est ce que nous verrons !

Le point sur les assistants vocaux grand public

Il y a quelques mois, PwC et Bloomberg ont analysé l’utilisation des assistants vocaux pour comprendre les motivations des utilisateurs et les tendances futures. L’intérêt de comparer leurs études réside dans la prise en compte des assistants vocaux installés sur les smartphones et les enceintes connectées pour l’un, et uniquement sur les enceintes connectées pour l’autre. Les différences sont importantes et pertinentes pour notre analyse industrielle : dans un cas, le dispositif matériel est mobile et offre un retour d’information visuel, dans l’autre, il s’agit d’une interface purement vocale.

Les résultats de l’analyse de PwC en 2019 [1] ne sont pas une surprise. Les jeunes utilisateurs adoptent rapidement la technologie. Les plus anciens sont plus lents, mais confiants dans leur utilisation future. L’utilisation des ressources d’assistance vocale reste principalement sur les téléphones mobiles (57%), l’utilisation de haut-parleurs connectés vient ensuite (27%).

L’étude de PwC confirme l’utilisation attendue de cette technologie dans un contexte privé pour des tâches simples. Dans l’ordre pour les 5 premiers :

  • Effectuer une recherche sur un moteur de recherche
  • Poser une question rapide
  • Consulter la météo ou les dernières nouvelles
  • Jouer de la musique
  • Démarrer une minuterie

L’étude Bloomberg [2] publiée en 2021 (réalisée 1 an après celle de PwC) nous apprend que les utilisateurs de l’assistant vocal Alexa d’Amazon utilisent principalement l’appareil équipé d’un écran, donc avec un retour visuel. Ces dispositifs sont néanmoins fixes, la plupart du temps dans le contexte de la maison. Les utilisateurs d’Alexa à la maison utilisent dans l’ordre :

  • Jouer de la musique
  • Démarrer une minuterie
  • Allumer ou éteindre les lumières

En parallèle, l’éditeur lui-même sur le site promotionnel d’Amazon-Alexa[3] propose l’utilisation de l’assistant vocal pour les fonctions suivantes :  » Alexa est toujours prête à répondre à vos questions, à vous raconter des blagues, à jouer de la musique, à trouver l’itinéraire le plus rapide pour aller au travail, à régler le thermostat avec vos appareils connectés compatibles, et bien plus encore « . Répondre à des questions, s’amuser, jouer de la musique : la proposition est cohérente avec l’utilisation observée par PWC et Bloomberg.

Mais alors, quelle est l’utilité d’un assistant vocal au travail ? En effet, les fonctions mentionnées ci-dessus ne donnent pas envie à un industriel d’investir dans cette technologie.

[1] https://www.pwc.com/cisvoiceassistants

[2] https://www.bloomberg.com/news/articles/2021-12-22/amazon-s-voice-controlled-smart-speaker-alexa-can-t-hold-customer-interest-docs

[3] https://www.amazon.fr/


Une première réponse générale pour l’industrie

Une étude menée par le groupe Manutan [1] en 2022 présente les utilisations possibles des assistants vocaux au travail, ainsi que les gains attendus. Parmi ces fonctions, les suivantes sont invoquées comme  » champs d’application des assistants vocaux en entreprise  » :

  • La dictée vocale est l’élément le plus utilisé ;
  • Prise de notes (comptes rendus de réunions) ;
  • Travail d’équipe ;
  • Gestion du calendrier des employés ;
  • Services à la clientèle ;
  • Services d’assistance informatique ;
  • Recherche de documents : il est possible de demander à l’assistant vocal d’afficher des documents à l’écran lors de présentations (états financiers, brochures de présentation, etc.).

Tout d’abord, il est intéressant de noter que la distinction entre la reconnaissance vocale et l’assistance vocale n’est pas très claire… En effet, les fonctions de « dictée vocale » ou de « prise de notes » sont liées à la mise en œuvre de capacités de transcription de la voix vers le texte (à partir de la synthèse vocale en bon anglais), mais ne requièrent pas de compétences avancées en matière de compréhension de texte ou de dialogue.

Les autres fonctions sont effectivement liées à la mise en œuvre de véritables fonctions d’assistance vocale. En d’autres termes, une intelligence artificielle doit comprendre l’intention de l’utilisateur à partir de la transcription textuelle de sa demande vocale, puis y répondre soit directement, soit par le biais de tours pour affiner la demande.

Néanmoins, il existe un mélange entre les fonctions externes et internes. Les fonctions externes, telles que le « service clientèle », utilisent des technologies similaires à celles du « grand public » mentionnées dans les études précédentes. Ils soulèvent des questions classiques sur la gestion des données personnelles, mais leur rentabilité ne fait aucun doute. Il semble évident que le remplacement d’un opérateur humain par un robot d’appel pour les tâches d’assistance de premier niveau est un choix rentable. Est-ce que c’est socialement responsable… c’est une autre question !

D’autres fonctions telles que le « calendrier », les « services informatiques » ou la « recherche documentaire » sont effectivement internes. Ces caractéristiques sont décrites par les auteurs comme « un atout ergonomique ». Cela signifie que l’accès vocal à ces fonctions n’est pas critique ou essentiel. En effet, les fonctions mentionnées telles que la « prise de rendez-vous », la « réservation de salle » ou la « planification d’un rendez-vous client » sont déjà accessibles par les outils bureautiques classiques. Les personnes qui les utilisent se trouvent le plus souvent dans un bureau, devant un ordinateur. Est-il vraiment nécessaire et plus rapide de fixer un rendez-vous client par la voix plutôt qu’en trois clics sur une interface classique ? Sauf pour les personnes handicapées, le retour sur investissement sera-t-il proportionnel aux dépenses de mise en œuvre ?

Pour l’industrie SPIX[2], il est essentiel que la mise en œuvre de l’assistance vocale apporte une réelle valeur ajoutée à l’utilisateur et à l’industrie qui la finance. De même, il est important de considérer l’ensemble du personnel de l’entreprise qui pourrait bénéficier de solutions vocales ou d’une assistance vocale.

La valeur ajoutée de l’utilisation de la voix et de l’assistance vocale ne se trouverait-elle pas dans les activités secondaires, plutôt que dans la tierce partie ? C’est la véritable révolution de l’arrivée des assistants vocaux dans l’industrie : investir dans la voix du clos-bleu pour maximiser la compétitivité de l’industrie du futur.

[1] https://www.manutan.fr/blog/conseils/assistants-vocaux-revolution-methodes-travail

[2] https://www.spix-industry.com


Les limites connues des assistants vocaux grand public

Le premier bilan tiré des études précédentes est donc clair : les assistants vocaux destinés au grand public sont donc surtout utilisés pour des tâches très simples, et principalement sur des smartphones avec retour d’information visuel.

Qu’en est-il de l’adoption et de l’utilisation récurrente des haut-parleurs connectés, et du retour d’information de leurs utilisateurs. La deuxième partie de l’étude de Bloomberg[1] est beaucoup plus inattendue et fournit des informations pertinentes pour une utilisation industrielle.

Cette deuxième partie de l’étude montre que les principales fonctions d’Amazon-Alexa sont comprises par les utilisateurs dans les trois heures qui suivent leur installation. Par la suite, 25% d’entre eux abandonnent ces appareils dans les 2 semaines qui suivent… ça laisse rêveur et en même temps ! Les raisons de cette constatation sont les suivantes :

  • Les fonctions accessibles et utilisées sont considérées comme peu utiles

Les fonctions utilisées mises en évidence par les études précédentes ne sont pas révolutionnaires par rapport à l’utilisation tactile classique d’une tablette ou d’un smartphone. La valeur ajoutée de ces fonctions reste dans le domaine soit du jeu, soit du gadget, soit même du confort. L’étude de PwC [2] montre que des fonctions à bien plus forte valeur ajoutée (réservation d’un restaurant ou d’un billet d’avion par exemple) ne sont pas encore utilisées (respectivement 16% et 0%), mais sont largement souhaitées pour l’avenir (respectivement 32% et 26%). Les utilisateurs cherchent donc à simplifier des tâches complexes à forte valeur ajoutée en utilisant la voix et l’assistance vocale.

Au vu de l’étude Manutan, on peut légitimement se demander si l’utilisation vocale des fonctions bureautiques classiques n’entrera pas dans cette catégorie. Une exception : une dictée vocale efficace pour l’industrie, qui comprend les termes commerciaux et connaît les noms des employés.

  • Les utilisateurs sont préoccupés par la confidentialité de leurs données

Plusieurs études récentes rapportées par les médias [3] , [4] démontrent que les capacités des assistants vocaux grand public tels qu’Alexa, Google-Home ou Siri sont améliorées par l’analyse des échanges entre les utilisateurs et leur assistant. Cette analyse passe nécessairement par l’écoute des commandes vocales données par les utilisateurs pour obtenir le service demandé. Le doute sur la confidentialité des données est donc semé dans l’esprit des utilisateurs.

Dans le contexte industriel, les questions sont les mêmes. Les call-bots de service et d’assistance de premier niveau pour les clients devront donc rapidement clarifier leur position sur le sujet des données manipulées. Il en va de même pour les solutions internes : écoutent-elles en permanence, la voix est-elle enregistrée, …

  • Les suggestions spontanées d’Alexa dérangent les utilisateurs

Enfin, le rapport Bloomberg revient sur un constat clair : l’utilisateur n’accepte pas que son assistant vocal lui donne des ordres ou lui fasse des suggestions d’actions ou d’achats de manière non sollicitée. Tout d’abord, il prouve que l’assistant exploite les demandes antérieures de l’utilisateur, ce qui renforce sa méfiance à l’égard de ses données personnelles. Enfin, les utilisateurs ont du mal à faire en sorte que leur assistant vocal soit à l’origine de l’échange : l’homme veut garder l’initiative.

Pourtant, on pourrait imaginer des fonctions vocales associées à des situations critiques, des alarmes incendie, des risques climatiques ou des dangers imminents. Ce type de fonction de sollicitation spontanée serait beaucoup mieux accepté. Nous verrons que pour que ces fonctions soient efficaces, l’assistant vocal doit être « aware », c’est-à-dire qu’il doit être conscient du contexte, de l’environnement dans lequel il est utilisé.

Ainsi, les fonctions disponibles dans les assistants « grand public » sont considérées comme peu utiles par leurs utilisateurs. En effet, pour être « intelligent » et donc pertinent, un assistant vocal doit comprendre le contexte dans lequel il est utilisé. Dans le domaine du grand public, l’utilisateur ( à juste titre ) ne souhaite pas partager trop de contexte avec son assistant ( où je suis, ce que je fais, ce que j’aime, mon humeur, … ). Les fonctions accessibles sont donc nécessairement simples.

La révolution de l’assistance vocale dans l’industrie consiste à l’utiliser pour des tâches critiques (les outils bureautiques ne sont pas utilisables de manière traditionnelle), et pour lesquelles un contexte est disponible (un ordre de mission, un ordre de travail, un formulaire à remplir). Il est donc temps d’allumer la voix dans les départements de production, de maintenance ou de contrôle de la qualité de l’industrie.

[1] https://www.bloomberg.com/news/articles/2021-12-22/amazon-s-voice-controlled-smart-speaker-alexa-can-t-hold-customer-interest-docs

[2] https://www.pwc.com/cisvoiceassistants

[3] https://www.cnetfrance.fr/

[4] https://www.lefigaro.fr/secteur/high-tech/


Pourquoi les cols bleus sont-ils obligatoires ?

Pour qu’un assistant vocal soit considéré comme « utile », il doit fournir un « service à forte valeur ajoutée » à l’utilisateur (un bénéfice), et apporter un « retour sur investissement » (le payeur).

Comme nous l’avons déjà vu dans un article précédent [1], pour les assistants vocaux grand public, le « payeur » est également le « fournisseur » de la technologie. Les assistants vocaux Alexa, Siri ou Google-Home sont en fait mis gratuitement à la disposition des utilisateurs, les contreparties non financières étant largement sous-estimées. Le modèle économique de ces assistants porte donc intrinsèquement une part de la frustration des utilisateurs.

Comme l’indique une définition de Wikipedia[2], l’intelligence d’un assistant vocal (ou assistant personnel) repose sur les connaissances de l’utilisateur et l’historique des données, c’est-à-dire les bases de connaissances. Dans le contexte du grand public, ces connaissances sont disponibles en grande quantité, mais nécessairement imparfaites. Il en résulte donc des services rendus à l’utilisateur qui sont simples et sans réelle valeur ajoutée.

On pourrait en conclure que la situation est désespérée… Heureusement non ! Il suffit de trouver des champs d’application pour les technologies d’assistance vocale qui permettent de remplir les deux conditions : « valeur » pour l’utilisateur et « bénéfice » pour le payeur.

La mise en œuvre de solutions vocales pour les ouvriers de l’industrie répond aux critères de valeur et de bénéfice, et apporte l’ensemble attendu de ROI attendus.

Depuis plusieurs années, l’industrie SPIX[4] a développé une technologie d’assistance vocale intelligente pour l’industrie, et plus particulièrement pour les techniciens et les ouvriers. Pourquoi cet assistant remplit-il les deux conditions énoncées précédemment ?

Dans le contexte actuel de l’industrie 5.0[5], les opérateurs manuels sont de plus en plus confrontés à des tâches numériques. La numérisation des tâches, le déploiement de logiciels complexes pour la gestion des procédures, des interventions, des rapports, etc. obligent les hommes et les femmes de terrain dans l’industrie à utiliser des applications numériques sur smartphones ou tablettes. Problème : ce n’est pas leur métier, ils ont souvent des gants, et n’aiment pas ce type de tâches auxquelles ils « perdent » beaucoup de temps.

L’utilisation d’un assistant vocal comme interface avec les logiciels qu’ils utilisent déjà sur une tablette ou un smartphone simplifie leurs tâches numériques. Ils effectuent les actions numériques qui leur sont demandées, mais de manière plus simple et en gardant les mains et les yeux libres. Ils conservent le support visuel de leur logiciel habituel, ce qui leur permet de mûrir dans l’utilisation de la voix. Un jour, ils pourront utiliser leur logiciel sans regarder l’écran !

Dans ce cas, la valeur ajoutée et le service fourni à l’utilisateur sont élevés, car l’assistant vocal possède toutes les connaissances nécessaires à son fonctionnement. En effet, les procédures, les ordres de travail, les instructions de travail ou les formulaires de rapport, complétés par des bases de vocabulaire et des ontologies spécifiques à l’industrie, constituent le corpus de connaissances utilisé pour définir le contexte dans lequel l’utilisateur se sert de son assistant vocal.

Les utilisateurs font confiance à cet assistant vocal intelligent de Spix parce que les règles d’utilisation de leur voix et des données de l’entreprise sont claires. En effet, les compétences de Spix[6] permettent d’assembler un assistant vocal intelligent intégré, sans connexion à un nuage externe et qui ne nécessite pas d’accès aux données d’entreprise en temps réel. Il fonctionne comme une interface avec le logiciel métier des opérateurs, ce logiciel restant en charge de la gestion des données métier qui leur sont propres. Du côté de l’opérateur, sa voix n’est pas enregistrée, il peut parler à ses collègues sans interférence avec son assistant, et le contexte d’utilisation est limité à son contexte de travail. L’opérateur reste toujours à l’initiative de l’interaction avec son assistant, sauf en cas d’alerte de sécurité. Mais dans ce cas, la valeur ajoutée de l’intervention de l’assistant est évidente.

Du point de vue de l’industrie, l’assistant vocal Spix de SPIX industry est un logiciel commercial. La technologie développée par l’entreprise respecte les règles de confidentialité des données industrielles, s’interface avec leurs logiciels métiers au travers de librairies[7] et répond aux contraintes de validation pour une utilisation opérationnelle dans un environnement industriel. Ainsi, l’industrie se dote de cet assistant vocal pour permettre à ses techniciens et opérateurs de terrain de mieux utiliser leurs applications numériques.

Dans ce cas, le fabricant est le payeur. Son retour sur investissement[8] se trouve dans la réduction de la non-qualité de la production, la réduction du temps sans valeur ajoutée de ses opérateurs, l’augmentation de la sécurité des interventions humaines. Enfin, le fabricant trouve son compte dans l’augmentation des données qu’il est en mesure de collecter en temps réel sur les opérations de terrain menées par ses techniciens.

[1] https://www.spix-industry.com/2021/assistants-vocaux-quel-est-prix-du-gratuit/

[2] https://en.wikipedia.org/wiki/Intelligent_personal_assistant

[3] https://www.spix-industry.com/article-roi-innovations-industrie/

[4] https://www.spix-industry.com

[5] https://www.spix-industry.com/2021/quest-ce-que-industrie-50-peut-faire-pour-vous

[6] https://www.spix-industry.com/service-vocal-intelligent-digitalisation-industrie/

[7] https://www.spix-industry.com/service-vocal-intelligent-digitalisation-industrie/

[8] https://www.spix-industry.com/article-roi-innovations-industrie/


Conclusion

L’adoption de la voix, tant pour les usages privés qu’industriels, nécessitera l’émergence de services à  » haute valeur ajoutée  » pour les utilisateurs. Pour le grand public, c’est compliqué parce que tout dépend des données que nous sommes tous prêts à partager.

Pour l’industrie, il est important de ne pas se tromper d’objectif. Contrôler un logiciel de bureau par la voix alors que la souris et le clavier sont disponibles et utilisables n’apporte pas de réelle valeur ajoutée. Comme nous l’avons vu, seule la mise en place de serveurs internes et confidentiels de transcription vocale capables de traiter les termes professionnels apporte une réelle valeur ajoutée aux utilisateurs des bureaux.

La révolution vocale concernera donc les techniciens et les ouvriers qui ont déjà fort à faire et à qui l’on demande de plus en plus d’interagir numériquement.

Chez SPIX industry, nous sommes convaincus par le développement des solutions d’assistance vocale intelligente dans les secteurs d’activité. Lors de travaux de production, d’inspection, de contrôle de la qualité ou de maintenance, il est possible d’assembler les composants nécessaires pour garantir l’utilité, l’utilisabilité et l’acceptabilité des services vocaux rendus à l’utilisateur, tout en satisfaisant le retour sur investissement du fabricant.

Contacts presse
André JOLY – Directeur général
Téléphone. : +33 (0)6 25 17 27 94
Courriel : andre.joly@spix-industry.com

Entité légale
Site web : spix-industry.com
Linkedin : linkedin.com/company/spix-industry
Simsoft3D SAS – 1244 rue l’Occitane – 31670 Labège (France)
« SPIX » et « SPIX industry » sont des marques déposées de Simsoft3D SAS.