|
ORAL PROBATOIRE METHODES D'AUTHENTIFICATION VOCALE D'UTILISATEURS DANS LES SYSTEMES INFORMATIQUES PAR GILLES
|
CONSERVATOIRE
NATIONAL DES ARTS ET METIERS
CENTRE
REGIONAL ASSOCIE DE STRASBOURG
ORAL
PROBATOIRE
présenté
en vue d’obtenir
Le
DIPLOME D’INGENIEUR C.N.A.M.
en
INFORMATIQUE
par
Gilles
------------------------------------------
Méthodes
d’authentification vocale d’utilisateurs
dans les systèmes informatiques
Soutenu
le 27 mai 2000
------------------------------------------
JURY
PRESIDENT : C. Kaiser
MEMBRES : J. Korczak, A. Napoli, S. Metzger, E. Maurice, J.L. Steffan
Sujet
Table de matières
1.2. Le marché de la biométrie
1.3. Les domaines d’utilisation de la biométrie
1.4. Principe de fonctionnement et performance
1.5. L’authentification par « la voix »
2. L’Authentification Automatique du Locuteur (AAL)
2.2. Dépendance et Indépendance au texte
2.3. Evaluation des performances en AAL
3.1. Structure d’un système d’AAL
3.2.1. Paramètres de l’analyse spectrale
3.2.3. Paramètres exploitant la dynamique du signal de parole
3.2.4. Nouvelles paramétrisations
3.3.2. Méthodes connexionnistes
3.3.3. Modélisation multi-classes
3.3.4. Un point sur les performances actuelles
4. Analyse de produits commercialisés et de prototypes de recherche
4.2. BUYTEL Ltd et ITT INDUSTRIES
4.8. Tests des produits sélectionnés
5. Problèmes et limites des systèmes actuels
5.1. Variabilité due au locuteur
5.2. Variabilité due aux conditions d’enregistrement et de transmission
6.
Quelques solutions aux problèmes de robustesse
6.1. Paramétrisations robustes
6.2. Ré-estimation ou adaptation des modèles
La croissance internationale des communications, tant en volume qu'en diversité (déplacements physiques, transactions financières, accès aux services...), implique le besoin de s'assurer de l'identité des individus. En effet, l'importance des enjeux peut motiver les fraudeurs à mettre en échec les systèmes de sécurité existants.
Il existe donc un intérêt grandissant pour les systèmes électroniques d'identification et de reconnaissance. Leur dénominateur commun est le besoin d'un moyen simple, pratique, fiable et peu onéreux de vérifier l'identité d'une personne sans l'assistance d'un tiers. Le marché du contrôle d'accès s'est ouvert avec la prolifération de systèmes, mais aucun ne se révèle efficace contre la fraude, car tous utilisent un identifiant externe tel que : badge/carte, clé, code, .…
Il est fréquent d'oublier un code d'accès. Il existe d’ailleurs de nombreux bureaux où les mots de passe sont notés dans des listes, ce qui représente une dangereuse faille dans la sécurité informatique de l’entreprise puisque toute confidentialité est alors perdue [Vnunet, 2000]. De même, un badge ou une clé peuvent être, volés ou copiés par des personnes mal intentionnées.
Dans le domaine de l’informatique par exemple, le CLUSIF (Club de la Sécurité Informatique) évalue à 7,8 millions de francs les pertes annuelles engendrées par les fraudes, les malveillances et les copies illicites de fichiers informatiques [Biométrie Online].
Le défaut commun à tous les systèmes d'authentification est que l'on identifie un objet (code, carte...) et non la personne elle-même.
Face à la contrainte de l'authentification par « objets », la biométrie apporte simplicité et confort aux utilisateurs.
Cette discipline s’intéresse en effet à l’analyse du comportement ainsi qu’à l’analyse de la morphologie humaine et étudie, par des méthodes mathématiques (statistiques, probabilités), les variations biologiques des personnes.
Les moyens biométriques permettent donc une authentification sûre car ils sont basés sur l’individu lui-même.
Il est alors indispensable de caractériser l’individu par une empreinte afin de le différencier des autres sans aucune ambiguïté ; cette empreinte est une clé codant l’identité d’une personne sans redondance ni variabilité. La plupart des indices biométriques, comme les empreintes digitales ou génétiques, répondent à ces critères [Besacier, 98].
Il en est différemment pour la voix dont la disposition à varier est inscrite dans sa nature même [Rossi, 89]. Si nous ne pouvons pas vraiment parler d’empreinte vocale, la variabilité d’une personne à une autre démontre tout de même les différences du signal de parole en fonction du locuteur.
Cette variabilité, utile pour différencier les locuteurs, est également mélangée à d’autres types de variabilité - variabilité due au contenu linguistique, variabilité intra-locuteur (qui fait que la voix dépend aussi de l’état physique et émotionnel d’un individu), variabilité due aux conditions d’enregistrement du signal de parole (bruit ambiant, microphone utilisé, lignes de transmission) – qui peuvent rendre l’identification du locuteur plus difficile.
Malgré toutes ces difficultés apparentes, la voix reste un moyen biométrique intéressant à exploiter car pratique et disponible via le réseau téléphonique, contrairement à ses concurrents.
Nous vous présenterons donc dans un premier temps les différents moyens d’authentification biométrique, leurs marchés, leurs domaines d’utilisation, leurs principes de fonctionnement ainsi que leurs performances.
Nous étudierons ensuite de façon plus approfondie l’un des moyens d’authentification biométrique : la « voix », en la comparant aux autres moyens puis en présentant les différents niveaux d’authentification par la voix ainsi que leurs performances.
Puis nous aborderons la structure d’un système d’authentification par la voix, les diverses méthodes qui y sont attachées en établissant une taxonomie des méthodes utilisées.
Seront ensuite présentés des produits et prototypes de recherche en la matière, une brève description des sociétés qui les ont établis, le marché et les applications visés, ainsi que leurs caractéristiques. Quelques tests de produits sélectionnés vous seront alors exposés.
Nous conclurons enfin par les problèmes et les limites des systèmes actuels en suggérant quelques solutions.
Le mot Anglais « Biometric », utilisé pour définir « La mesure des éléments morphologiques des humains », est fréquemment traduit en français par « Biométrie ».
La définition de « Biométrie » donnée par le Petit Robert est une « science qui étudie à l'aide de mathématiques (statistiques, probabilités) les variations biologiques à l'intérieur d'un groupe déterminé ».
La biométrie est donc une discipline qui s'intéresse à la mesure de caractéristiques physiques d'êtres vivants et à leur traitement statistique. Lorsqu'il est question de mesurer des organismes humains, le terme anthropométrie est également utilisé.
Les termes "biométrie" et "biométrique" se rapportent donc à des dispositifs destinés à reconnaître des êtres humains à partir de mesures effectuées automatiquement. L’authentification peut concerner le visage, la forme de la main, les empreintes digitales, l’iris, la rétine, la voix, …. Les possibilités sont illimitées.
Il existe 2 catégories de technologies biométriques :
Ÿ d’une part les techniques d'analyse du comportement :
- la dynamique de la signature (la vitesse de déplacement du stylo, les accélérations, la pression exercée, l'inclinaison),
- la façon d'utiliser un clavier d'ordinateur (la pression exercée, la vitesse de frappe).
Ÿ et d’autre part les techniques d'analyse de la morphologie humaine (empreintes digitales, forme de la main, traits du visage, dessin du réseau veineux de l'œil, la voix). Ces éléments ont l'avantage d'être stables dans la vie d'un individu et ne subissent pas autant les effets du stress par exemple, que l'on retrouve dans l'identification comportementale.
Le cadre juridique
Les systèmes biométriques permettent un traitement d'informations nominatives ; leur mise en oeuvre est soumise, en France, à la loi n°78-17 du 6 janvier 1978, relative à l'informatique, aux fichiers et aux libertés. Cette mise en oeuvre sur le territoire français est soumise à l'autorisation de la commission nationale de l'informatique et des libertés (CNIL), ce qui garantit au public qu'il n'y a pas atteinte à la vie privée, ou aux libertés individuelles ou publiques.
La biométrie et l’informatique
Dans le passé, le traitement automatique (informatisé) de l’authentification d'empreintes digitales nécessitait l'utilisation d'importants moyens matériels de traitement. Le coût d'élaboration d'un tel système en cantonnait l'usage à des applications spécifiques et à des organismes très motivés qui y mettaient les moyens (système judiciaire, fichier national d'identité, contrôle d'accès haute sécurité).
A présent, les microprocesseurs possèdent la puissance nécessaire à un traitement de ce type et leur coût ne cesse de décroître.
1.2. Le marché de la biométrie
|
Les ventes de logiciels de sécurité qui représentaient 3,1 milliards de dollars en 1998 ont progressé de 67% de 1996 à 1997 et de plus de 55% en 1998. Le cabinet IDC estime que la croissance devrait se maintenir aux environs de 40% jusqu'en 2002, pour des ventes totales de 7,4 milliards de dollars. Pour le marché français de la sécurité des systèmes d'informations, IDC prévoit un triplement du chiffre d'affaires entre 1998 et 2002, passant de 1,180 milliards de francs à 3,350 milliards de francs. Aux Etats-Unis, le marché de l'authentification biométrique double chaque année, passant de 25 millions de dollars de chiffre d'affaires en 1997 à 50 millions en 1998, pour atteindre les 100 millions en 1999 [Biométrie Online] |
|
Ces chiffres restent modestes, mais plusieurs facteurs devraient participer au développement prochain de la biométrie, y compris en France.
Le marché de la sécurité informatique est encore atomisé, peu de fournisseurs peuvent prétendre offrir une gamme complète de produits. Toutefois, les spécialistes estiment que ce marché est en pleine croissance et qu'il va également se concentrer.
En effet, Internet et le commerce électronique sont des marchés porteurs pour la sécurité, mais ils ne sont pas les seuls. Le télétravail, la mise à dispositions d'informations aux clients et sous-traitants sont également des facteurs de risque pour les entreprises qui ouvrent leur système d'informations.
Le marché des produits d'authentification individuelle par l'approche biométrique est donc en forte croissance et la technologie dominante actuellement serait celle employant les empreintes digitales. La raison est simple : on a accepté depuis longtemps le fait que les empreintes digitales soient uniques pour un individu donné, et ce fait est supporté par des analyses de probabilité qui affirment que la probabilité théorique de retrouver deux configurations similaires sur les empreintes digitales de deux individus est de l'ordre de 10(-20) (équivalant à une chance sur des milliards de milliards) [Biométrie Online].
Le GARTNER GROUP a publié en 1998 une liste des dix technologies clés à suivre. Le résultat montre que parmi les systèmes biométriques, les empreintes digitales, l'œil et la forme du visage arrivent en tête de liste ; vient ensuite l’authentification vocale.
Le marché en France
Du coté des utilisateurs ou clients potentiels, il n'y a plus de réticence et la demande est en forte croissance.
Les sollicitations les plus fréquentes à ce jour concernent le remplacement du mot de passe par la biométrie à l'ouverture d'un logiciel ainsi que le contrôle d'accès aux locaux.
Des produits de ce type en provenance des USA existent déjà sur le marché, mais les utilisateurs préféreraient un produit européen pour être certain d'obtenir facilement et rapidement un soutien technique et plus particulièrement si l'utilisateur souhaite intégrer cette technologie au sein de sa propre application.
Les industriels compétents existent en Europe. Ils sont souvent prêts pour la production. En revanche, pour commercialiser ces produits à des prix acceptables sur le marché, il faut que le volume de production soit important dès le début de la commercialisation.
C'est là que se situe le problème européen pour ne pas dire français, il manque tout simplement l'engagement d'investisseurs pour soutenir ces entreprises dans la pénétration de ce marché qui émerge. Un marché qui n'est même plus à risque puisque la demande existe. Bien entendu, cette difficulté n'existe pas aux USA.
1.3. Les domaines d’utilisation de la biométrie
La liste des applications pouvant utiliser la biométrie pour contrôler un accès (physique ou logique) peut être très longue. La taille de cette liste n'est limitée que par l'imagination de chacun dans son domaine d'activité [Biométrie Online].
Ÿ contrôle d'accès aux locaux,
- salle informatique,
- site sensible (service de recherche, site nucléaire).
Ÿ systèmes d'informations,
- lancement du système d'exploitation,
- accès au réseau,
- commerce électronique,
- transaction (financière pour les banques, de données entre entreprises),
- tous les logiciels utilisant un mot de passe.
Ÿ équipements de communication,
- terminaux d'accès à Internet,
- téléphones portables.
Ÿ machines et équipements divers,
- coffre-fort avec serrure électronique,
- distributeur automatique de billets,
- casier sensible (club de tir, police),
- cantine d'entreprise (pour éviter l'utilisation d'un badge par une personne extérieure),
- casier de piscine (plus d'objet à porter sur soi),
- contrôle des adhérents dans un club, carte de fidélité,
- contrôle des temps de présence,
- voiture (anti-démarrage).
Ÿ état / administration,
- fichier judiciaire,
- titres d'identité (carte nationale d'identité, passeport, permis de conduire),
- services sociaux (sécurisation des règlements),
- services municipaux (sécurisation des accès aux écoles),
- système de vote électronique.
1.4. Principe de fonctionnement et performance
On peut décomposer le fonctionnement de l’authentification biométrique de la façon suivante : (figure 2)
1. capture de
l'information à analyser,
2. traitement de l'information et création d'un fichier "signature", puis mise en mémoire de ce fichier de référence sur un support (disque dur, carte à puce, code à barres),
3. phase de vérification, l'on procède ici comme pour la création du fichier "signature" de référence, puis l’on compare les deux fichiers pour déterminer leur taux de similitude et prendre la décision qui s'impose.

Figure 2 – [Biométrie online, page Techno.htm]
Les moyens biométriques
Voici quelques moyens actuellement à l’étude :
Ÿ les empreintes digitales,
Ÿ la forme de la main,
Ÿ le visage,
Ÿ
la voix,
Ÿ l’iris,
Ÿ la rétine,
Ÿ la signature dynamique,
Ÿ la thermographie,
Ÿ le code génétique (ADN).
Les performances biométriques
Il est impossible d'obtenir une coïncidence absolue (100% de similitude) entre le fichier "signature" créé lors de l'inscription et le fichier "signature" créé lors de la vérification. Les éléments d'origine (une image, un son...) utilisés pour les traitements informatiques ne pouvant jamais être reproduits à l'identique.
Plutôt que de comparer les performances de ces systèmes, il faut surtout tenir compte de l'environnement de leur usage. Chaque technologie possédant des avantages et des inconvénients, acceptables ou inacceptables suivant les applications. Ces solutions ne sont pas concurrentes, elles n'offrent ni les mêmes niveaux de sécurité ni les mêmes facilités d'emploi.
En ce qui concerne « la voix », les avantages relevés sont les suivants :
Ÿ c’est, à ce jour, le seul moyen pour authentifier un interlocuteur via une liaison téléphonique,
Ÿ par rapport aux autres technologies, il est plus facile de protéger le récepteur ; on pourra en effet aisément protéger un micro derrière une grille anti-vandalisme.
Mais « la voix », possède aussi des inconvénients :
Ÿ elles est sensible à l’état physique de l’individu,
Ÿ elle est sensible aux bruits ambiants,
Ÿ il sera possible de frauder par un enregistrement,
Ÿ les taux de faux rejets et fausses acceptations sont élevés.
1.5. L’authentification par « la voix »
Le domaine de recherche
concernant l’authentification vocale d’utilisateurs dans les systèmes
informatiques est l’Authentification Automatique du Locuteur (AAL). Ce domaine
pluridisciplinaire rassemble phonéticiens (production et perception de la
parole) et ingénieurs (traitement du signal, informatique, théorie de la décision)
[Besacier, 98].
L'identification de la voix est considérée par les utilisateurs comme une des formes les plus normales de la technologie biométrique, car elle n'est pas intrusive et n'exige aucun contact physique avec le récepteur du système.
Les systèmes d'identification de la voix se concentrent sur les seules caractéristiques de la voix qui sont uniques à la configuration de la parole d'un individu. Ces configurations de la parole sont constituées par une combinaison de facteurs comportementaux et physiologiques.
Les sons se caractérisent par une fréquence, par une intensité et par une tonalité. Le traitement informatique tient compte des distorsions liées au matériel utilisé, et sait analyser un son de mauvaise qualité tel qu'une transmission téléphonique ou radiophonique.
Chaque personne possède donc une voix propre que l'on peut analyser à l’aide d’un micro.
La plupart des systèmes d'identification de la voix utilisent l'affichage d'un texte, des mots spécifiques doivent être lus puis répétés afin de vérifier que la personne à authentifier est bien présente et qu'il ne s'agit pas d'un enregistrement.
Les imitateurs essayent habituellement de reproduire les caractéristiques vocales qui sont les plus évidentes au système auditif humain et ne recréent pas les caractéristiques moins accessibles. Il n'est donc pas possible d'imiter la voix d'une personne inscrite dans une base de données [Besacier, 98].
Toutefois, la fatigue, le stress ou un rhume peuvent provoquer des variations de la voix et générer des perturbations.
La fraude est également possible en enregistrant, à son insu, la voix d'une personne autorisée.
La prochaine partie de notre étude vous présentera les différents niveaux d’authentification par la voix dans un certain nombre de contextes (application, identification, vérification, dépendance du texte) puis les critères d’évaluation de leurs performances.
2. L’Authentification Automatique du Locuteur (AAL)
Il s’agit de reconnaître automatiquement l’identité d’une personne prononçant une ou plusieurs phrases, comme un auditeur humain identifie son interlocuteur au cours d’une conversation. Nous distinguerons :
1. les applications « sur site » : serrures vocales pour contrôle d’accès, cabines bancaires en libre service,
2. les applications liées aux télécommunications : ces
applications concernent l’identification du locuteur à travers le réseau téléphonique
pour accéder à un service de transactions bancaires à distance ou pour
interroger des bases de données en accès privé,
3. les applications judiciaires : recherche de suspects,
orientations d’enquêtes, preuves lors d’un jugement [Hollien, 90] [Künzel,
94].
La difficulté de la tâche d’authentification n’est pas la même d’une application à une autre. Dans le cas des applications « sur site », l’environnement de prononciation de la phrase ou du mot de passe est plus facilement contrôlé que dans le cas des applications via le réseau téléphonique (distorsions dues au canal, différences entre les combinés téléphoniques, bande passante limitée). Les applications judiciaires présentent quant à elles des difficultés d’un autre ordre (locuteurs non-coopératifs, enregistrements de mauvaise qualité).
On distingue deux tâches différentes en Authentification Automatique du Locuteur (AAL) : l’identification du locuteur et la vérification du locuteur [Atal, 76] [Doddington, 85] [O’Shaughnessy, 86] [Furui, 94] [Eagles, 95].
L’identification du locuteur consiste à reconnaître ce locuteur parmi une population (ou base) composée de N locuteurs connus. L’entrée du système est l’échantillon de parole d’un locuteur inconnu. La sortie du système correspond à l’identité du locuteur de la base de référence qui est la plus "proche" du signal de parole inconnu. Dans cette tâche, on fait l’hypothèse que le signal de parole à identifier est prononcé par l’un des locuteurs de la base de référence (identification en ensemble fermé).
La vérification du locuteur [Naik, 90] [Naik, 94b] [Rosenberg, 76] consiste à déterminer si un locuteur est bien celui qu’il prétend être. Le système dispose en entrée d’un échantillon de parole et d’une identité proclamée. Une mesure de ressemblance est calculée entre l’échantillon et la référence du locuteur correspondant à l’identité proclamée. Si cette mesure est en dessous d’un certain seuil, le système accepte le locuteur ; dans le cas contraire, le locuteur est considéré comme un imposteur et rejeté.
Il est à noter que pour une identification en ensemble ouvert, la combinaison des deux tâches précédentes est nécessaire :
1. identification du locuteur le plus probable parmi les locuteurs de la base,
2. puis vérification que l’échantillon inconnu a bien été prononcé par le locuteur choisi dans l’étape d’identification.
2.2. Dépendance et Indépendance au texte
La distinction est faite entre les systèmes dépendants et indépendants du texte. En mode dépendant du texte, le texte prononcé par le locuteur (pour être reconnu du système) est le même que celui qu’il a prononcé lors de l’apprentissage de sa voix. En mode indépendant du texte, le locuteur peut prononcer n’importe quelle phrase pour être reconnu.
Néanmoins, il existe plusieurs niveaux de dépendance au texte suivant les applications (listés selon le degré croissant de dépendance au texte) [Bimbot, 93] [Bimbot, 94] :
Ÿ systèmes à texte libre (ou free-text) : le locuteur prononce ce qu’il veut,
Ÿ systèmes à texte suggéré (ou text-prompted) : un texte, différent à chaque session et pour chaque personne, est imposé au locuteur et affiché à l’écran par la machine,
Ÿ systèmes dépendants de traits phonétiques (ou speech event dependent) : certains traits phonétiques spécifiques sont imposés dans le texte que le locuteur doit prononcer,
Ÿ systèmes dépendants du vocabulaire (ou vocabulary dependent) : le locuteur prononce une séquence de mots issus d’un vocabulaire limité (ex. : séquence de digits),
Ÿ systèmes personnalisés dépendants du texte (ou user-specific text dependent) : chaque locuteur a son propre mot de passe.
Les systèmes dépendants du texte donnent généralement de meilleures performances d’authentification que les systèmes indépendants du texte car la variabilité due au contenu linguistique de la phrase prononcée est alors neutralisée.
2.3. Evaluation des performances en AAL
Les performances
d’identification du locuteur en ensemble fermé sont données par le taux
d’erreur d’identification (pourcentage des cas où le système ne reconnaît
pas le bon locuteur).
Dans le cas d’un système
de vérification du locuteur, on distingue le taux de fausse acceptation (pourcentage
des cas où le système accepte le locuteur alors que celui-ci n’est pas la
personne qu’il prétend être) ; et le taux de faux rejet
(situation où le système
rejette le locuteur alors qu’il est vraiment la personne qu’il prétend être).
L’évaluation des performances d’un système d’AAL n’est cependant pas un problème commun et on ne peut comparer deux systèmes à partir de ces seuls taux d’erreur qui dépendent de multiples facteurs. Ainsi, les éléments suivants doivent également être pris en compte :
Ÿ qualité de la parole : enregistrements en studio ou via le canal téléphonique ; environnement calme ou bruyant ; type de réseau téléphonique,
Ÿ quantité de parole : durée de parole pour l’apprentissage des références de chaque locuteur ; durée de parole des sessions de test,
Ÿ variabilité intra-locuteur : la voix d’un locuteur dépend de son état physique et émotionnel ; de plus, le comportement d’un locuteur se modifie lorsque celui-ci s’habitue à un système,
Ÿ population de la base de locuteurs : en identification du locuteur, la taille de la population a une influence directe sur les performances ; la qualité de la population (proportion hommes/femmes, bonne répartition géographique des locuteurs parlant une même langue) est également un facteur à intégrer,
Ÿ intention des locuteurs : la distinction est faite entre les locuteurs coopératifs (qui veulent être reconnus par le système) et les locuteurs non-coopératifs qui modifient leur voix pour ne pas être reconnus (cas de certaines applications judiciaires par exemple). Enfin, certains locuteurs imitent la voix d’une autre personne pour être reconnus à sa place : ce sont des imposteurs. A ce propos, lors de l’évaluation d’un système, les imposteurs sont en général d’autres locuteurs de la base de référence ce qui n’est pas très réaliste. En effet, en pratique, un imposteur réel qui tentera d’imiter la voix du locuteur pour lequel il voudra être reconnu, n’existera pas forcément dans la base de référence.
Les problèmes d’évaluation sont largement discutés dans le cadre du projet européen EAGLES [Chollet, 97] qui a pour but d’uniformiser les procédures d’évaluation. Des campagnes d’évaluation en AAL ont également été lancées (campagnes NIST (National Institute of Standards and Technology) ) pour comparer les performances des systèmes sur une même base de données ("bench-mark programmes") et dans des conditions identiques pour tous. On trouvera aussi un bon exemple sur le problème de l’évaluation des performances dans [Oglesby, 95].
Dans cette section,
sont présentés la structure générale et les différents modules d’un système
d’AAL. Une revue critique des méthodes existantes est ensuite proposée en
soulignant les atouts et défauts respectifs de chaque méthode. A ce propos, il
est à noter que le taux d’erreur d’identification (ou les taux
d’acceptation / faux rejet) d’un système d’AAL n’est pas le seul critère
de sa qualité. Sont à ajouter :
Ÿ la rapidité de l’apprentissage des modèles et de la phase d’authentification,
Ÿ la quantité de données nécessaire pour l’apprentissage des modèles de locuteurs,
Ÿ la modularité, c’est-à-dire la possibilité d’ajouter ou de supprimer un locuteur de la base sans modifier complètement l’architecture du système [Artières, 95],
Ÿ la robustesse aux variations intra-locuteurs ou aux conditions d’enregistrement.
3.1. Structure d’un système d’AAL
La tâche d’authentification automatique du locuteur peut se subdiviser en trois étapes :
Ÿ la paramétrisation,
Ÿ la classification,
Ÿ la décision.
Un premier module de traitement du signal réalise l’analyse acoustique du signal de parole. A l’issue de cette étape, le signal est représenté par des vecteurs de coefficients, ce qui permet de réduire l’information en quantité et en redondance. Ces vecteurs sont éventuellement représentés par un modèle mathématique ; on parle alors de méthodes paramétriques. Dans la phase de classification, les vecteurs du signal de test (ou leur modèle) sont comparés aux vecteurs des locuteurs de référence (ou à leurs modèles). La phase de décision désigne le locuteur finalement reconnu.
La structure d’un système d’identification du locuteur en ensemble fermé est représentée sur la figure 3.

Figure 3 - Schéma modulaire d’un système d’identification du
locuteur en ensemble fermé
[Besacier, 98, page 9]
Les différents systèmes d’AAL existants se distinguent, d’une part suivant les paramètres qu’ils utilisent, et d’autre part suivant les différents classificateurs qui prennent la décision finale.
Dans son article sur le
choix de paramètres efficients pour l’authentification du locuteur, [Wolf,
72] décrit les attributs nécessaires des « bons paramètres » pour
l’AAL. Idéalement, les paramètres (ou traits acoustiques) doivent :
Ÿ être fréquents,
Ÿ être facilement mesurables,
Ÿ ne pas être trop sensibles à la variabilité intra-locuteur,
Ÿ ne pas être affectés par le bruit ambiant ou les variations dues au canal de transmission,
Ÿ être robustes face aux imitateurs.
En pratique, il est très difficile de réunir tous ces attributs en même temps. La sélection de traits acoustiques pertinents pour l’AAL est donc un sujet largement traité : sélection de paramètres séparant les locuteurs en terme de F-ratio (ou ses variantes) [Sambur, 75] [Bonastre, 92] ; sélection par programmation dynamique [Cheung, 78] ; sélection suivant les taux d’identification [Atal, 74]. Finalement, il ressort que les seuls types de paramètres vraiment pertinents et utilisables efficacement sont les paramètres de l’analyse spectrale et éventuellement les paramètres prosodiques. Nous pouvons noter qu’ils sont respectivement corrélés à la forme du conduit vocal et à la source de l’appareil de production de la parole.
3.2.1. Paramètres de l’analyse spectrale
Les principaux paramètres de l’analyse spectrale utilisés en AAL sont les coefficients de prédiction linéaire et leurs différentes transformations (LPC (Linear Predictive Coefficients), LPCC (Linear Predictive Cepstral Coefficients), ...), ainsi que les coefficients issus de l’analyse en banc de filtres et leurs différentes transformations (coefficients banc de filtres, MFCC (Mel Frequency Cepstral Coefficients), ...).
Pour les coefficients de prédiction linéaire, on se référera par exemple aux thèses de [Grenier, 77] et [Homayounpour, 95]. Les articles suivants proposent quand à eux une bonne synthèse sur le choix de paramètres spectraux : [Reynolds, 94a] [Homayounpour, 94] [Ong, 94] [Charlet, 97]. Sans oublier l’utilisation des versions numériques : la TDF (Transformée Discrète de Fourier), un algorithme de calcul rapide : FFT (Fast Fourier Transform). Toutefois, la TDF ne peut opérer sur des séquences trop courtes de signal [Haton, 91].
Le terme "paramètres prosodiques" réunit l’énergie, la durée [Van den Heuvel, 94] et la fréquence fondamentale (ou pitch) [Atal, 72]. Ces paramètres s’avèrent cependant fragiles en pratique et ne permettent pas, à eux seuls, de discriminer les locuteurs. En conséquence, ils sont souvent associés aux paramètres de l’analyse spectrale (surtout l’énergie). C’est aussi le cas pour la durée dans [Forsyth, 93] et pour la fréquence fondamentale dans [Matsui, 90] et [Dubreucq, 94].
3.2.3. Paramètres exploitant la dynamique du signal de parole
La prise en compte d’une information de type dynamique peut être un facteur d’amélioration des performances d’identification du locuteur.
3.2.4.
Nouvelles paramétrisations
Aujourd’hui, les paramètres utilisés sont pratiquement les mêmes pour la plupart des systèmes d’AAL. Il existe cependant quelques exceptions comme [Thevenaz, 95] et [Hayakawa, 97] qui proposent d’utiliser le résidu de l’analyse par prédiction linéaire, combiné avec les coefficients LPC. [Wenndt, 97] utilise des paramètres issus d’un bi-spectre (statistiques d’ordre supérieur), plus robustes aux dégradations en milieu bruité. Enfin, AEGIR SYSTEMS qui a participé à la campagne d’évaluation NIST 97 [Nist, 97], utilise des coefficients issus d’une transformée en paquets d’ondelettes. La transformée en ondelettes ainsi que les autres transformées permettant une analyse multi-résolution du signal [Cohen, 95] sont très peu utilisées en traitement de la parole, malgré leur présence dans de nombreux autres domaines. On trouvera cependant quelques références sur le sujet dans [Navarro-Mesa, 92] [Wassner, 96] et [Bernstein, 97].
Cette étape consiste à comparer les vecteurs du signal du
locuteur testé aux vecteurs des locuteurs de référence de la base de données.
Il existe différentes techniques de
classification utilisées lors de l’identification du locuteur indépendante
du texte ; quelques-unes vous sont présentées ci-après :
Ÿ spectres moyens :
[Pruzansky, 63] fut une
des premières à utiliser les paramètres du spectre moyen à long terme pour
l’AAL. Elle obtint un taux d’identification de 90 % sur une base de dix
personnes.
Ÿ méthodes statistiques du second ordre :
Des mesures entre matrices de covariance ont été proposées par [Grenier, 77] et [Gish, 90]. Elles sont faciles à implémenter et donnent de très bons résultats [Gish, 94] [Bimbot, 95] avec des durées de test relativement courtes (moins de 3s).
Ÿ Modèles Auto Régressif Vectoriels (MARV) :
Ces modèles ont pour vocation de prendre en compte la dynamique du signal de parole. On trouvera notamment l’application des MARV pour l’AAL dans [Montacié, 92a] et [Montacié, 92b]. Une étude sur le choix de l’ordre des modèles (i.e. le nombre de trames utilisées pour la prédiction) est proposée dans [Griffin, 94]. Cependant, un ordre élevé des modèles engendre une complexité de calcul difficile à contrôler.
3.3.2. Méthodes connexionnistes
L’utilisation des réseaux de neurones en AAL est relativement récente [Oglesby, 90] [Bennani, 90]. On trouvera cependant un bon exemple sur le sujet dans [Bennani, 95].
Ÿ réseaux de neurones et discrimination :
Les réseaux
multicouches (MLP (Multi Layer Perceptron) ) utilisés au départ ont rapidement
présenté des problèmes lors de l’apprentissage qui devient long et complexe
quand le nombre de locuteurs est grand [Rudasi, 91]. Pour éviter ce problème,
la tâche de classification est divisée en plusieurs sous-tâches de complexité
moindre pour chaque paire de locuteurs. Un apprentissage plus rapide peut également
être obtenu en remplaçant les réseaux multicouches par des réseaux RBF
(Radial Basis Function) [Oglesby, 91] [Frederickson, 94] [Furlanello, 95]. Les réseaux
TDNN (Time Delay Neural Networks) permettent quand à eux de prendre en compte
l’information dynamique en réalisant la classification sur des segments de
plusieurs trames concaténées [Bennani, 92]. Enfin, l’approche LVQ (Learning
Vector Quantization) [Driancourt, 92] [Bennani, 95] est une méthode de type
quantification vectorielle avec apprentissage discriminant des vecteurs de référence
à l’aide d’un réseau de neurones.
Ÿ réseaux de neurones et modélisation :
Un défaut majeur des réseaux de neurones en classification est le problème de modularité [Artières, 95]. En effet, dans le cas d’un apprentissage discriminant, les modèles de tous les locuteurs doivent être re-appris quand une nouvelle personne est ajoutée dans la base. Les modèles prédictifs permettent de modéliser un locuteur indépendamment de tous les autres.
3.3.3. Modélisation multi-classes
Ÿ approches par segmentation explicite :
Dans cette approche, le signal de parole segmenté est utilisé pour entraîner des modèles de classes acoustiques dépendants du locuteur. Dans [Bonastre, 94a] et [Bonastre, 94b], un score d’authentification est calculé pour chaque phonème du signal de parole préalablement segmenté, puis ces scores sont combinés afin de prendre une décision finale. [Olsen, 97] propose un système de vérification du locuteur en deux phases : une première phase de Décodage Acoustico-Phonétique (DAP) utilisant des HMM (Hidden Markov Model), puis une phase d’authentification du locuteur basé sur des réseaux RBF dépendants des phonèmes. On trouve également ce type d’approche dans [Savic, 90] et [Matsui, 91] qui obtiennent de bonnes performances avec des durées de test courtes. Il est intéressant de noter qu’avec ces systèmes, les taux d’erreur sont pratiquement les mêmes en mode dépendant ou en mode indépendant du texte.
Ÿ approches par segmentation implicite :
Une première possibilité, introduite par [Soong, 85] consiste à regrouper les vecteurs acoustiques en classes. La méthode de quantification vectorielle (VQ (Vector Quantization) ) [Soong, 86] est la plus souvent utilisée. L’emploi de la quantification vectorielle en AAL est notamment proposé dans [Matsui, 91] [Matsui, 92] [He, 97]. Une prise en compte de la nature séquentielle des événements phonétiques, associée à la quantification vectorielle, a également été proposée par [Higgins, 86].
La seconde possibilité consiste à utiliser des modèles probabilistes. [Poritz, 82] propose un HMM à 5 états pour classer les vecteurs de paramètres du signal d’un locuteur en 5 catégories correspondant chacune à un état du HMM. [Tishby, 91] propose une extension de ces modèles en décrivant un état comme une combinaison linéaire (mixture) de gaussiennes. Cependant, une expérience de [Matsui, 92] comparant les approches VQ aux HMM en mode indépendant du texte n’a pas montré une différence de performance significative entre les deux techniques. Ces modèles à base de mixtures de gaussiennes (GMM (Gaussian Mixture Model) ) sont désormais largement utilisés en AAL [Reynolds, 94b] [Gish, 94] [Reynolds, 95] [Markov, 96] [Lamel, 97] [Schmidt, 97] et fournissent les meilleurs résultats actuels. Les GMM semblent également être un peu plus robustes quand les environnements d’apprentissage et de tests diffèrent [Van Vuuren, 96].
3.3.4. Un point sur les performances actuelles
L’institut américain NIST organise chaque année une campagne d’évaluation des systèmes d’identification du locuteur. En 1997, la campagne portait sur la tâche de vérification du locuteur indépendante du texte [Nist, 97]. Neuf compétiteurs ont participé à cette campagne : Aegir, BBN, Dragon, ENST, IDIAP, ITT, MIT, OGI et SRI. Le classement final s’est fait sur :
Ÿ un apprentissage sur environ 1 minute de parole correspondant à un mélange de 2 conversations enregistrées sur 2 combinés téléphoniques différents,
Ÿ une mesure de performances réalisée à partir d’un segment de test de 30 secondes environ.
Les performances sont évaluées séparément pour les portions de test utilisant un combiné téléphonique déjà présent dans la base d’apprentissage et pour les portions de test utilisant un combiné inconnu de la base d’apprentissage. Le score, qui permet le classement final des systèmes, est donné par une fonction de coût égale à la somme pondérée des probabilités de faux rejet et de fausse acceptation. Sur cette évaluation, huit laboratoires ont été classés [Besacier, 98].
Le classement final, ainsi que les méthodes utilisées par les laboratoires sont rassemblés dans le tableau 1.
Tableau 1 - Classement final de la campagne d’évaluation NIST 97. – [Besacier, 98, page 18]
|
Laboratoire |
Dragon 2 |
MIT1 |
BBN1 |
Dragon 1 |
OGI |
ITT |
IDIAP - ENST |
SRI |
|
Classement |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
|
Méthode |
GMM |
GMM |
GMM |
LVCSR |
GMM |
VQ |
Hybrid HMM / MLP |
GMM / LVCSR |
Il en ressort que la méthode de classification GMM est la plus performante.
La phase de décision désigne le locuteur finalement reconnu. Le procédé de cette phase dépendra fortement de la phase de classification choisie. Dans cette phase de décision, le locuteur sera accepté, reconnu ou rejeté suivant un seuil de décision, car on ne pourra jamais avoir 100% de similitude entre le signal du locuteur testé et le signal des locuteurs de la base de référence.
4. Analyse de produits commercialisés et de prototypes de recherche
Une certain nombre de sociétés ainsi que leurs produits vous sont présentés ci-après. Vous trouverez une brève description de chaque société, une énumération et description de leurs produits d’AAL, les caractéristiques techniques de chaque produit, ainsi que le marché et les applications visés.
7 sociétés/produits sont présentés ci-après :

E-mail :
info@configate.com
Web :
http://www.configate.com
Téléphone :
+972-8-9316701
Fax :
+972-8-9316702
Adresse postale :
Configate, Unit 231 2 Professor Bergman St., Rabin Science Park, Rehovot
76705, Israel
CONFIGATE est
une compagnie spécialisées en biométrie et plus précisément dans la vérification
de la voix sous forme d’authentification pour l’accès à distance sur
Internet et la téléphonie. Fondée en 1999, la philosophie de cette société
est d’identifier et d’évaluer les caractéristiques naissantes de la vérification
de la voix [Configate].
Produit :
CONFIGATE propose un produit appelé « Verimote ». Son utilisation se décompose en 2 phases :
1. l’inscription : l’utilisateur doit exprimer oralement un mot de passe composé de trois mots de son choix. Le profil de la voix de l’utilisateur, appelé un « voiceprint », est enregistré dans une base de données,
2. la vérification : l’utilisateur est amené à réitérer la prononciation de son mot de passe. La vérification se fait immédiatement et donne droit ou non à l’accès.
Marché et Application :
Entre autres :
Ÿ les services financiers,
Ÿ le commerce électronique,
Ÿ la formation en ligne,
Ÿ le télétravail,
Ÿ la sécurité de l’information,
Ÿ le contrôle d’accès physique.
Caractéristiques Techniques :
Ÿ longueur du mot de passe : 2 à 4 secondes,
Ÿ temps d’inscription : environ 30 secondes,
Ÿ taille d’un « voiceprint » : approximativement 10 Ko comprimé,
Ÿ temps de vérification : environ 2 secondes (dépend de l’encombrement du réseau),
Ÿ système d’exploitation du serveur : Windows NT, Sun Solaris,
Ÿ système d’exploitation du client : Windows 95/98, Windows NT/2000, Macintosh.
4.2. BUYTEL Ltd et ITT INDUSTRIES
|
E-mail : speakerkey@buytel.com
-
voicekey@buytel.com |
E-mail : speakerkey@itt.com
-
voicekey@itt.com |
La société ITT est une compagnie de fabrication industrielle. Elle est le principal fournisseur des systèmes militaires sophistiqués de la défense ainsi que des d’éléments électroniques pour les téléphones cellulaires et cartes PC pour les ordinateurs portables. L’associé d’ITT pour les services de « SpeakerKey » est BUYTEL. BUYTEL est l’un des principaux fournisseurs de services téléphoniques.
Les services de « SpeakerKey » fournissent de nouvelles normes d’exécution et de convenance pour l’accès et l’identification d’utilisateurs [Buytel], [ITT and Buytel].
Produits :
Ÿ PhoneKey : authentification vocale via le téléphone,
Ÿ NetKey : via un réseau local,
Ÿ WebKey : via Internet.
Marché et Application :
Entre autres :
Ÿ commerce électronique,
Ÿ services financiers en ligne,
Ÿ téléphone,
Ÿ formation en ligne,
Ÿ assurance chômage en ligne,
Ÿ avantages d’assistance sociale en ligne.
Correspondance
A la suite d’échange d’e-mails (annexes 1 et 2a) avec ces deux sociétés, j’ai constaté qu’il n’était pas possible de connaître précisément les méthodes utilisées pour l’élaboration de leur produit d’AAL. La société ITT m’a tout de même indiqué qu’elle utilisait la méthode HMM ainsi que d’autres méthodes non divulguées. En effet, ces informations sont de propriété industrielle donc strictement confidentielles.

E-mail
Web : http://www.motorola.com
Téléphone : +602-441-5009
MOTOROLA est l’un des principaux fournisseurs mondiaux des transmissions sans fil, des semi-conducteurs ainsi que des systèmes, des composants et des services électroniques avancés.
Produit :
Le kittm de logiciel de vérification du locuteur « CipherVox » est le dernier né de la famille de produits de sécurité de l’information de MOTOROLA.
Marché et Application :
C’est un système que les développeurs pourront insérer dans leurs programmes. « CipherVox » se prête à beaucoup de plate-forme et à une variété d’applications.
Caractéristiques Techniques :
Ÿ temps d’inscription : environ 1 minute,
Ÿ taille d’un « voiceprint » : très petit,
Ÿ temps de vérification : moins d’1 seconde.