Les voicebots, l’avenir des chatbots ?

Des chatbots aux voicebots
À quoi est dû l'essor soudain des voicebots ? Sont-ils vraiment en passe de remplacer les chatbots ? Patrick Séguéla décode pour vous la tendance des assistants vocaux !

On ne présente plus les chatbots, ces assistants virtuels avec lesquels on peut discuter en langage naturel et qui résolvent nos soucis techniques, nous parlent de la météo ou proposent de nous aider à commander nos billets de train. D’ici deux ans, 80% des entreprises envisagent de confier à un chatbot leurs interactions client et les applications métiers de ces agents conversationnels ne cessent de se développer. Pourtant, à peine installés dans les entreprises, les chatbots se voient déjà concurrencés par une technologie florissante : les voicebots.

Les voicebots sont des assistants virtuels basés sur le même socle d’intelligence artificielle et dotés des mêmes capacités qu’un chatbot, à la seule différence que leurs échanges sont effectués de manière orale.

Homologues parlants des chatbots, les voicebots se sont fait connaître grâce aux assistants virtuels des GA(F)AM :

  • Google Assistant, le voicebot de Google
  • Alexa, l’assistante virtuelle d’Amazon
  • Siri, l’assistant personnel d’Apple
  • Cortana, l’assistante vocal de Microsoft

 

Pourquoi les voicebots pourraient-ils faire de l’ombre aux chatbots ?

La première explication, la plus évidente, réside dans l’évolution et l’amélioration constante des technologies vocales qui sont en passe aujourd’hui d’arriver à maturité après des années de R&D. Le taux d’échec des assistants vocaux existants est estimé entre 5 et 10%, et l’on pense qu’un taux de réussite de 95% permettra à la voix de s’imposer auprès du grand public en 2020 (source : BI Intelligence).

Aujourd’hui, l’adoption progressive des voicebots se fait majoritairement par les jeunes générations, puisque plus de la moitié des moins de 18 ans ont déjà eu une interaction avec une interface vocale, tous supports confondus. Néanmoins, l’intégration de ces assistants vocaux dans les enceintes connectées permet à la technologie de se démocratiser en devenant accessible à tous les membres du foyer.

43,6 millions d’enceintes intelligentes sont ainsi annoncées aux USA en 2018. Actuellement, 16% des foyers aux Etats-Unis sont équipés d’enceintes connectées, un chiffre qui devrait s’élever à 75% en 2020 (source : VoiceLabs 2017 Voice Report, InfoScout, 2016). Pourquoi un tel engouement pour les voicebots, alors même que les services qu’ils proposent sont disponibles sur smartphones et pc depuis plusieurs années ?

Confrontés à cette question, 55% des utilisateurs citent l’interaction sans les mains comme principal atout des voicebots. En ce sens, ils sont des « facilitateurs », c’est-à-dire qu’il n’y a pas de friction et pas de délais entre le questionnement de l’utilisateur et la réponse. Contrairement aux chatbots, l’interaction est spontanée, orale, simple. C’est un argument qui n’est pas étonnant : il est beaucoup plus naturel pour l’homme de parler que de taper sur un écran. Et de raison ! Parler est sept fois plus rapide qu’écrire sur du papier et trois fois plus rapide que taper sur un clavier. En ce sens, les voicebots démocratisent l’accès à la technologie en étant à la portée de toutes les tranches d’âge et classes sociales. En effet, l’enceinte connectée est aujourd’hui le premier « device » (appareil ou un dispositif avec lequel un internaute va naviguer sur Internet) à unir et réconcilier toutes les générations. Il n’y a besoin d’aucune compétence particulière pour utiliser ce support et bénéficier de ses services, de fait, il est autant destiné aux férus de nouvelles technologies qu’aux personnes âgées, déficientes visuelles, en situation d’handicap, etc.

Le deuxième avantage des voicebots, hormis leur facilité d’utilisation, est de pouvoir être utilisés en parallèle d’une autre activité, ce qui crée de nouveaux « micro-moments » propices à l’achat. Ainsi, on prévoit que 30% de la navigation web se fera sans écran d’ici 2020 et que 50% des recherches Google se feront à la voix en 2020. Pour les marques, les voicebots sont donc une opportunité rare de pouvoir capter l’utilisateur pendant ses activités privées : cuisine, lessive, soins, repas, ménage, conduite… La voix est un nouveau levier de trafic dont les entreprises commencent à se saisir par les enceintes connectées. Cela entraîne une nouvelle guerre des plateformes qui tend à révolutionner le marché des assistants, dominé par les GA(F)A.

  • Enceinte Amazon Echo
  • Enceinte Google Home
  • Enceinte Homepod par Apple

En dehors des enceintes connectées, la voix pourrait rendre intelligents 20 milliards d’objets d’ici 2023 (smartphones, montres, ordinateurs portables, voiture, télévisions…).

C’est ainsi que l’on voit se dessiner la troisième raison majeure de l’essor des voicebots : le passage progressif du mono device au multi devices. En réalité, il s’agit plus d’un retour au multi devices puisqu’avant le sacre du smartphone, la norme consistait plutôt à posséder un appareil par usage : un ordinateur pour aller sur Internet, un téléphone pour les appels, un appareil photo pour photographier, une caméra pour filmer, un GPS pour se repérer, un agenda papier, une console pour les jeux, une calculatrice physique, etc. L’utilisateur jonglait entre les différents appareils en fonction de ses usages. Avec l’apparition des smartphones et leur progressive amélioration, les différents devices ont été abandonnés au profit du nouveau graal technologique : le téléphone portable intelligent et multi-usages. Les chatbots, particulièrement adaptés aux smartphones, ont profité de ce développement en s’intégrant dans un grand nombre d’applications mobiles : messageries, applications bancaires, applications de transports, etc.

Néanmoins, il s’opère aujourd’hui un virage d’usage. Les avancées technologiques permettent de rendre connectés des objets que nous pensions figés dans leur évolution et dans leur potentialité d’interfaçage. Ainsi nos enceintes, télévisions, fours, lumières, radiateurs, frigidaires… sont désormais disponibles en versions « connectées » et peuvent même parler et communiquer avec nous. Nous sommes rentrés dans l’ère des assistants digitaux, qui offrent des alternatives vocales plus pratiques parfois que le smartphone. Ainsi, selon Gartner, 20% des interactions avec son téléphone auront lieu via des assistants personnels virtuels en 2019. Les chatbots sont donc progressivement concurrencés par les voicebots, plus faciles d’utilisation, plus intuitifs et plus accessibles sur supports multiples.

Pourtant, malgré l’apparent engouement des utilisateurs et la mine d’or que pourrait constituer ce terrain vocal pour les marques, peu d’entreprises proposent actuellement une solution de voicebot aboutie. Comment expliquer ce paradoxe ?

 

Les performances encore décevantes des voicebots

Afin de bien comprendre pourquoi les voicebots sont difficiles à mettre en place de manière performante, il convient de s’attarder sur ce qui les différencie – technologiquement parlant – des chatbots.

Par rapport à un chatbot, un voicebot doit intégrer deux étapes supplémentaires de compréhension automatique du langage que sont la reconnaissance et la synthèse vocale. La reconnaissance vocale est « l’input », c’est-à-dire ce qui permet au bot de capter la requête utilisée afin de l’analyser. La synthèse vocale est « l’output », ce qui permet au voicebot de délivrer oralement l’information demandée à l’utilisateur.

À ces deux étapes obligatoires peut se rajouter une troisième étape : l’identification biométrique, qui va permettre au voicebot de reconnaître la personne qui lui parle pour savoir quand réagir.

Un voicebot ne peut donc pas être intégré à n’importe quel objet, puisqu’il faut a minima qu’il dispose :

  • D’un microphone pour enregistrer la voix
  • D’un haut-parleur pour produire du son

Concrètement, la captation et la compréhension d’une requête utilisateur se fait en six étapes :

1. L’utilisateur parle au voicebot via un flux audio
2. L’appareil auquel il s’adresse crée un fichier audio de ses mots
3. Le fichier audio est « nettoyé » en supprimant le bruit de fond et en normalisant le volume
4. Le fichier audio résultant est ensuite décomposé en ce qu’on appelle des phonèmes. Les phonèmes sont les unités sonores de base de la langue (c’est-à-dire permettant de distinguer des mots les uns des autres) que l’on peut isoler par segmentation dans la chaîne parlée. Le français en contient 36.
5. Chaque phonème est comme un chaînon. En les analysant en séquence, en partant du premier phonème, un logiciel ASR (Automatic Speech Recognition) effectue une analyse statistique des probabilités pour en déduire les mots entiers, puis à partir de là, pour reconstituer les phrases.
6. Le voicebot a maintenant retranscrit la requête à l’écrit (« speech to text ») et va pouvoir chercher puis donner la réponse adaptée.

L’analyse de ces étapes permet de déduire plusieurs points potentiellement bloquants à la généralisation massive des voicebots.

Tout d’abord, la voix impose certaines limites. La qualité de sa captation notamment peut être dégradée par du bruit ambiant ou un fond sonore, ce qui tend à limiter les lieux d’utilisation d’une telle technologie. Si les environnements bruyants sont prohibés, les accents marqués ou les débits de parole trop rapides peuvent également gêner la reconnaissance vocale. Il reste important de bien prononcer chaque mot et chaque phrase pour optimiser les performances et augmenter les chances d’obtenir une réponse pertinente. De la même manière, il convient de se tenir assez près du microphone pour que le bot puisse capter la voix correctement, ce qui limite encore plus l’espace à l’intérieur duquel il peut être utilisé sans soucis. Ces faiblesses de reconnaissance vocale ont tendance, encore aujourd’hui, à limiter l’usage des voicebots à des interactions basiques. Selon une étude de Creative Strategies, 63% des utilisateurs s’en servent pour effectuer une recherche web, 50% pour écouter de la musique et 55% uniquement pour s’amuser et tester les réactions du bot.

En outre, ces faiblesses sont difficiles à corriger. Pour apprendre à une Intelligence Artificielle à traiter des données comme un flux d’audio pollué, il faut l’entraîner avec des quantités astronomiques de données dans ces mêmes conditions spécifiques. Or, la quantité des données disponibles sur ces sujets est forcément très limitée.

Le deuxième gros frein à l’utilisation massive des voicebots est un problème de confidentialité des données. Pour que le voicebot fonctionne, il doit capter la voix et analyser ce flux audio. Or, se faisant, il capte « l’empreinte vocale » de l’utilisateur, qui est une donnée personnelle unique au même titre que son empreinte digitale.  Même si l’authentification par la voix a été validée par la Commission Nationale de l’Informatique et des Libertés, l’application du RGPD soulève de nombreuses questions aux entreprises souhaitant commercialiser un voicebot. Dans quelle mesure vont-elles pouvoir utiliser l’empreinte vocale d’un individu ? Comment contrôler qu’elles ne stockent ou ne revendent pas cette information ?
Par ailleurs, il faudra également s’assurer que les voicebots soient protégés contre les piratages. La voix d’un individu pouvant désormais facilement être reproduite par des solutions comme Lyrebird, les voicebots – et toutes les applications à authentification vocale auxquelles ils donnent accès – pourraient potentiellement être utilisés par quelqu’un d’autre que leur propriétaire.

Le dernier point bloquant que l’on peut identifier réside dans la complexité des technologies de reconnaissance vocale nécessaires aux voicebots. Les chatbots ont l’avantage de pouvoir s’intégrer de manière relativement facile à n’importe quel smartphone ou application de messagerie. À l’inverse, les voicebots nécessitent des logiciels de reconnaissance vocale efficaces et éprouvés pour pouvoir fonctionner correctement, sans compter les technologies d’identification biométrique, de synthèse vocale, ou de traitement du langage qui sont ensuite nécessaires à leur bon fonctionnement. Ces spécificités rendent l’environnement concurrentiel des voicebots bien différent de celui des chatbots. Les chatbots bénéficient d’un marché, certes riche en acteurs différents, mais florissant et relativement facile d’accès. Les voicebots quant à eux, souffrent d’un marché enclavé par les géants du net : Apple, Google, Amazon et, plus récemment, Samsung qui commence à investir dans le secteur. Ces colosses de l’industrie tendent à dominer le paysage concurrentiel et participent à freiner l’émergence de nouveaux acteurs.

 

 Voicebots et chatbots, des technologies complémentaires mais pas substituables

Conséquence de ces difficultés : si beaucoup de foyers adoptent les voicebots, peu l’utilisent de manière régulière. Selon Verto, spécialiste de l’analyse de données consommateurs issus d’applications, tous appareils confondus, les utilisateurs n’accordent que 12 minutes par mois à l’usage de ces assistants vocaux, soit moins de 0,1% du temps passé sur leur mobile. Sur Alexa, 62% des 20 000 applications vocales disponibles n’ont pas été notées, ce qui suggère qu’elles sont peu ou pas utilisées. Les écrans ont donc encore de beaux jours devant eux avant d’être purement et simplement remplacés par des interfaces entièrement vocales.

La démocratisation des voicebots aura pour principale conséquence d’offrir un moyen d’usage supplémentaire, mais elle n’occultera pas l’intérêt des chatbots, toujours extrêmement pertinents pour du service support ou du helpdesk en entreprise. De manière générale, les assistants vocaux auront du mal à se faire adopter dans les lieux publics ou les espaces partagés, leur utilisation manquant à la fois de discrétion et de confidentialité. À l’inverse, ils s’imposeront là où les chatbots n’ont pas pu rayonner : dans les voitures, dans le secteur de la domotique et des enceintes connectées. Pour le reste, il est sûrement plus sage de penser que les chatbots n’ont pas encore fini de faire parler d’eux.