Résumé
La dimension fractale (D) d’un signal temporel unidimensionnel estime son degré de liberté et favorise une bonne approche de sa fluctuation et de sa rugosité. Nous avons effectué une mesure de la D éventuelle des principales voyelles et des consonnes de la langue française, à partir de la banque de données BD-SONS. Chaque phonème était prononcé 4 fois par 6 hommes et 6 femmes. Pour la partie stationnaire de ces phonèmes nous avons employé la classique méthode des boîtes, qui permet, en appréciant la pente de la ligne de régression des dix derniers points, de mesurer la valeur de D, appelée 10pD. Dans le but d’approcher les plus petites échelles, et d’apprécier au moins la tendance de la ligne de régression, nous avons aussi calculé 3pD, c’est-à-dire la pente des trois derniers points, permettant d’obtenir ainsi une sorte de signature du signal. Mais cette méthode demande au minimum 1 024 échantillons. Aussi, pour la partie plosive des consonnes, nous avons dû mettre au point une méthode des boîtes semi-continue, dévolue à l’appréciation de la dimension fractale des signaux de durée brève. Notre étude démontre que les voyelles ne sont pas fractales, ce qui est logique puisqu’elles réalisent un signal périodique complexe ; les consonnes plosives ne sont pas fractales ; les consonnes longues fricatives sont fractales ; les valeurs de D des voyelles et des consonnes longues voisées non plosives sont plus élevées chez la femme que chez l’homme ; il y a pour les valeurs de 3pD une différence significative (p<0,01) entre les voyelles entre elles (à l’exception du couple [a] [y]), et entre les consonnes fricatives entre elles (à l’exception du couple [ ∫ ] [f]). Pour les consonnes nasales, cette catégorisation est significative (p<0,01) avec 3pD et 10 pD. Les applications cliniques seront évoquées, qu’elles soient déjà mises en pratique ou en cours d’élaboration, notamment, par exemple, dans le traitement du signal des prothèses auditives.
Summary
Fractal dimension (D) quantifies the roughness of a temporal signal and estimates its degree of freedom, allowing a good approach of its fluctuations and roughness. Using a 16 kHz time sampling and the box-counting method, we studied Ds of some of the main French phonemes, i. e. [a], [e], [i], [o], [y], and consonants in a consonant-vowel context pronounced 4 times by 10 males and 10 females. For D measurement of long phonemes we used the dyadic Box Counting method and its 10 points D measurement (10pD). For plosion part of plosives consonants, we designed a Semi Continuous Box Counting method devoted to D measurement of short single dimension temporal signal. In the aim to approach infinitely small time scales, and to appreciate at least the tendency of these 10 points set, we calculated also the slope of the 3 last points (3pD). Our study consistently demonstrates that vowels are not fractal ; plosive consonants are not fractal ; long fricative consonants are fractal ; males Ds are significantly higher females Ds, as far as only vowels and long voiced consonants are concerned ; there is a significant difference (p<0.01) between 3pD values of vowels (couple [a] [y] excepted), and fricative consonants (couple [ ∫ ]] [f] excepted). In case of nasal consonants, this categorisation is efficient using both 3pD and 10pD measurements (p<0.05). These results will be commented and discussed, in the aim of clinical use, i.e. dysphonia follow up and auditory prosthesis speech signal processing.
INTRODUCTION
L’étude de la dimension fractale (D) d’un signal temporel unidimensionnel, tel l’évolution de la parole en fonction du temps, est un moyen de quantifier son désordre apparent. Nos travaux sur l’amélioration du traitement du signal des prothèses auditives ont montré depuis trois ans qu’une telle approche de la parole, qui apprécie la variabilité de ses phonèmes, peut contribuer à les caractériser. Nous rapportons ici le résultat d’ensemble de ces recherches.
La D d’un objet réel doit être envisagée sur les plans théorique et pratique. Si on considère les objets mathématiques définis par la Figure 1 et sa légende, à mesure qu’augmente le nombre des itérations, la longueur de la ligne AB tend vers l’infini, et ses accidents tendent à occuper une surface de plus en plus grande, mais qui tend vers une limite finie. La dimension de ces deux objets est donc comprise entre celle d’une droite et celle d’une surface, et à chaque itération on retrouve la même homothétie et la même similitude interne qui caractérisent chacun d’eux.
Lorsque l’objet mathématique est un signal dont l’amplitude évolue en fonction du temps entre zéro et une valeur maximum, on démontre que, lorsque l’agencement des points qui définit ce signal est aléatoire, si le nombre de ceux-ci tend vers l’infini, ils tendent à occuper la totalité de la surface du graphe défini par la ligne de base et la valeur maximum du signal. La D de cet objet sera égale à 2, et l’on dira sa rugosité maximum. Si cet agencement définit une droite ou une sinusoïde, D = 1 et la rugosité est nulle.
FIG. 1. — Schéma de l’obtention des premières itérations d’une courbe de Von Koch, dite triangulaire à gauche, et quadratique à droite. On part d’un segment AB qui, dans une première itération, devient une ligne brisée constituée de segments de longueur AB/k, avec k = 3 à gauche, ou k = 4 à droite. À l’itération suivante, on procède de même pour chacun des segments réalisés précé- demment. Si L(n) est la longueur de AB lors de l’itération n, et l(n) la longueur de chaque segment de la ligne AB, l(n) = L(n-1)/k. D’une manière générale L(l/k) = 2 L(l), ce qui répond à la formule L(l) = l(AB/l)D qu’on appelle loi de Richardson, dont le paramètre D est un nombre qui permet de déterminer la longueur mesurée de l’objet AB en tenant compte de la taille de l’étalon (ici chaque segment) utilisé pour la mesure. À gauche, D = Log 4/Log3 = 1,22. À droite D = Log8/Log4 = 1,5. On considère que la ligne de droite occupe une surface plus grande et qu’elle est plus « rugueuse » que la ligne de gauche.
Cette D, qui se définit par une fraction, n’est qu’exceptionnellement un nombre entier. Elle est intermédiaire aux dimensions entières des espaces auxquels nous sommes habitués, qui se définissent par un nombre entier, 1 pour les longueurs, 2 pour les surfaces, 3 pour les volumes. D’une manière plus générale, l’ensemble des dimensions fractales et entières est rassemblé sous le terme de dimensions générali-
sées. De nombreux paramètres peuvent intervenir — notamment une part de hasard — dans la définition de l’algorithme créant cet objet. Mais celui-ci reste un objet théorique.
Dans la réalité, certains objets physiques peuvent présenter les mêmes propriétés.
Mais elles sont toujours, d’une part restreintes à certaines échelles comprises entre l’infiniment grand et l’infiniment petit et, d’autre part, soumises aux limites de la significativité des mesures. La fréquence d’échantillonnage d’un signal sonore numérique, par exemple, limite le nombre des points qui le définissent. En outre, au sein même de ces limites, la mesure d’un objet réel demeure toujours approximative.
Mais l’abstraction réalisée, bien qu’elle soit approchée, peut faire ressortir des propriétés particulières, sorte de « signature » qui trouvera parfois une utilité pratique.
L’analyse numérique de la parole conduit à opposer les éléments stationnaires, d’une durée longue, pratiquement toujours supérieure à 80 µs (voyelles, consonnes longues et partie voisée initiale des consonnes plosives), aux éléments transitoires, dont la durée est inférieure à une quinzaine de µs (partie terminale des consonnes plosives, qu’elles soient sourdes ou voisées). Autrefois, nous avions mis à profit cet antagonisme pour proposer une amélioration de l’efficacité des implants cochléaires [1], qui est aujourd’hui employée dans l’appareillage français Digisonic. La même distinction a été nécessaire dans notre étude de l’éventuelle fractalité de la parole, car la limitation obligée du taux d’échantillonnage de celle-ci nous a conduits [2] à employer une méthode de mesure de D, qui est différente selon qu’il s’agit d’un signal stationnaire de durée longue, dont la digitalisation fournit beaucoup d’échantillons ou d’un signal transitoire, dont la brièveté ne donne qu’un nombre très faible d’échantillons.
MATÉRIEL ET MÉTHODE
Le signal de parole
Ses composants ont été extraits du CD-Rom « BD Sons », base de données des sons du français réalisée par l’observatoire des industries de la parole du CNRS, dont l’intensité est équilibrée. Sa fréquence d’échantillonnage (Fe) est égale à 16 kHz.
Chaque phonème a été prononcé 4 fois par 6 hommes et 6 femmes, en employant pour les consonnes la même voyelle d’appui. Les sons ont été transformés en format 16 bytes « wav ».
Pour les voyelles [a], [e], [i], [o], [y], et les consonnes longues non explosives [f], [v], [∫], [j], [s], [z], [l], [m], [n], [R], nous avons choisi seulement 64 ms dans la partie stationnaire du signal. Pour les consonnes plosives, la fin de la sélection siégeait au dernier passage à zéro du signal avant la première onde de la voyelle d’appui ; le début s’effectuait 64 ms plus tôt. La partie brève de l’explosion elle-même a été
étudiée en prenant le même repère pour la fin de la sélection ; on a placé son début à la fin du silence précédant l’explosion en cas de plosives sourdes [p], [t], [k], et à la fin du voisement pour les plosives voisées [b], [d], [g].
Mesure de D
Pour mesurer l’éventuelle fractalité d’un signal, nous avons, en fonction de la durée, c’est-à-dire du nombre d’échantillons de celui-ci, employé deux méthodes.
La méthode des boîtes dyadiques (BDy )
Nous l’avons utilisée pour les consonnes longues et les voyelles. Son principe consiste à inclure les points d’une série temporelle dans une figure étalon, habituellement un carré, dont on fait varier la taille, ce qui revient à faire varier l’échelle d’observation, et à évaluer pour chaque échelle le nombre de carrés contenant un ou plusieurs échantillons du signal. L’algorithme de BDy est décrit dans la Figure 2.
D’une manière générale, la dimension de l’objet se définit par Dgén = log( N(r)) log(1) r relation dans laquelle Dgén est la dimension généralisée, r la résolution d’observation dont la taille tend vers 0, et N(r) le nombre d’éléments dénombrés à la résolution r.
Si, pour un intervalle de confiance donné, l’ensemble des mesures placées dans le graphe log-log dessine une droite, le signal étudié est fractal, et sa dimension est égale à la pente de la droite, qui est celle de la régression linéaire correspondante.
La méthode des boîtes dyadiques semi-continues (BDySC)
Nous l’avons employée pour la partie brève que constitue l’explosion des consonnes plosives. Si N est le nombre d’échantillons du signal bref étudié, BDySC fournit les M premier point du graphe log-log, en suivant la méthode BDy de l’échelle la plus large jusqu’à une certaine taille de boîte S , telle que S = 2M/Fe. Puis, aux petites M M échelles, pour chaque point successif du graphe log-log, la taille de la boîte diminue de 1/Fe, ce qui fournit un grand nombre de points. Certes, quand N/S + (XFe) n’est M pas un nombre entier, le signal analysé doit être, à ses extrémités, réduit symétriquement en abscisse et en ordonnée pour obtenir un nombre entier de boîtes. Mais ces échantillons tronqués sont réintroduits pour les mesures des boîtes plus petites. La valeur de M a été choisie la plus haute possible pour obtenir au moins dix points dans le graphique. Cette valeur dépend de la durée du signal étudié, c’est-à-dire ici de l’explosion de la consonne.
Ces deux méthodes nous ont donné, pour chaque élément de la parole, un graphique à dix points. Pour chaque son, nous avons déterminé la pente 10pD, c’est-à-dire la valeur correspondante de D. En outre, pour aborder les échelles de temps infiniment
FIG. 2. — Algorithme de la méthodes des boîtes dyadiques. Il comprend les temps suivants :
1 Définir la première fenêtre d’observation la plus vaste possible, de telle manière que le nombre de ces échantillons soit une puissance de 2.
2 Compter le nombre de boîtes qui contiennent chacune une partie du signal.
3 Diviser par 2 en abscisse et en ordonnée chaque fenêtre d’observation ; on obtient 4 fois plus de boîtes qu’à l’étape précédente, réalisant ainsi un changement d’échelle. Compter à nouveau le nombre de boîtes contenant chacune une partie du signal, et associer ce nombre à la résolution correspondante.
4 Retourner en 3, tant que la taille des boîtes est supérieure à 1 échantillon.
Dans un graphe log-log placer chaque mesure, avec en abscisse le log du nombre de boîtes remplies, et en ordonnées le log de la résolution correspondante.
petites, et approcher au moins la tendance de ces dix points, nous avons aussi calculé la pente 3pD de la droite approximative formée par les trois derniers points du graphe, correspondant aux plus petites échelles. Pour apprécier l’éventuelle fractalité du signal étudié, nous avons donc pour D deux valeurs, 10pD et 3pD. Pour apprécier leur significativité, bien que nous n’ayons qu’une variable (l’intensité en ordonnée), nous avons mesuré l’erreur que comportait leur évaluation, c’est-à-dire la différence entre l’ordonnée observée et la valeur théorique de l’ordonnée dans la régression linéaire.
RÉSULTATS
L’erreur dans la mesure de la régression linéaire est négligeable pour 3pD des voyelles et des consonnes longues non plosives (p < à 0,002). Elle est, en revanche, très importante pour les consonnes plosives, que celles-ci soient appréciées dans leur totalité ou au niveau de leur explosion seulement (p>0,3). Les valeurs de D figurent dans les Tableaux 1 et 2. Dans tous les cas, les valeurs de D sont significativement différentes des valeurs « phonèmes » et des valeurs « locuteurs » (p<10—14). La valeur de 10pD est, de manière significative, plus élevée chez les femmes que chez les hommes, avec p<10-68 pour les voyelles, et avec p<0,01 pour les consonnes longues voisées non plosives. Les consonnes fricatives et les voyelles présentent une valeur de 10pD significative, mais la comparaison de ces phonèmes par paires en fonction de leur valeur fonctionnelle (voyelles entre elles, consonnes fricatives entre elles, etc), ne fournit aucune matrice de discrimination significative, sauf les nasales entre elles. En revanche, si on considère 3pD, cette significativité est obtenue pour les consonnes fricatives à l’exception du couple [∫] – [f], les nasales, et les voyelles à l’exception du couple [a] – [y] (Tableau 3). Par ailleurs, les valeurs de D des voyelles suivent pour 3pD, un ordre [o], [e], [y], [a], [i] qui est différent de l’ordre du triangle vocalique français [y], [i], [o], [e], [a]. Ce dernier est au contraire suivi par les valeurs de 10pD.
Enfin, sauf pour quelques paires, la mesure de D ne permet pas de distinguer les consonnes liquides entre elles, ni le voisement des consonnes plosives.
DISCUSSION
La fiabilité de DBy et DBySC doit d’abord être discutée. La plupart des auteurs et notamment Robinson [3] estiment que, pour démontrer l’éventuelle fractalité d’un signal, la ligne de régression de BDy doit comporter au moins 10 points, c’est-à-dire provenir de 1 024 échantillons. C’est pourquoi, dans notre étude, la durée du signal analysé est de 64 ms, afin d’obtenir ces 1 024 échantillons. Observant, dans un travail antérieur [4], que l’efficacité de BDy variait de la même manière que la fréquence d’échantillonnage et la durée du signal analysé, nous avions constaté que, pour la mesure de D d’un signal sinusoïdal — qui est égale à 1 — cette efficacité variait en raison inverse de la fréquence de ce signal ; nous avions montré en outre que 3pD,
TABLEAU 1. — Moyenne et déviation standard de la pente de la régression linéaire calculée avec 10pD et 3pD pour les 5 voyelles étudiées. Pour chacune de celles-ci la valeur du 1° formant F1 est indiquée dans la première ligne.
TABLEAU 2. — Valeurs moyennes et déviation standard des valeurs de D obtenues pour les différentes consonnes, en employant BDy pour l’ensemble d’entre elles, etBDySC pour la partie plosive des consonnes plosives.
qui fait appel aux plus hautes résolutions, améliorait cette efficacité (Fig. 3 et 4).
Ceci explique la signification que l’on peut donner à 3pD, qui, sans être la preuve d’une réelle fractalité, peut être considérée comme une sorte de signature particulière à ce signal.
Par ailleurs, nous avons démontré la validité de DBySC en mesurant avec cette méthode [2] des signaux mathématiques dont la valeur de D était connue, et en comparant entre elles les différentes méthodes de la littérature. Nous avons observé que sa validité augmentait si on choisissait M aussi grand que possible, de telle manière qu’on puisse obtenir au moins les 10 points nécessaires pour le calcul de la courbe. De plus, nous avons démontré qu’en cas de signal non fractal la valeur de Dgén est correctement approchée par cette méthode BDySC.
Cependant, cette mesure de D dépend de la fiabilité de la ligne de régression. Des erreurs très grandes témoignent que cette ligne de régression n’est pas, de manière
TABLEAU 3. — Significativité statistique des matrices de discrimination des voyelles et des consonnes fricatives en employant 3pD.
significative, véritablement une ligne droite, ce qui veut dire que le signal étudié n’est pas fractal. Lorsqu’on apprécie la valeur de 3pD, la dynamique des erreurs est très étroite, parce que les 3 derniers points seulement sont utilisés pour construire cette ligne. Celle-ci n’objective pas une fractalité, mais seulement une tendance, une sorte de signature, qui est intéressante parce qu’elle concerne les petites échelles du signal, c’est-à-dire finalement la dimension originale de cette représentation graphique.
Mais on doit garder à l’esprit que seuls les signaux mathématiques sont réellement fractals. Il n’y a pas de signal fractal dans la nature, sauf si en pratique on effectue une approche approximative, tenant compte des intervalles de confiance statistiques.
Deux exemples illustrent ces remarques. On observe de larges erreurs dans l’appré- ciation de D des plosives ; cela signifie que ce signal particulier n’est pas fractal — ce qui est évident quand on regarde son image oscilloscopique — et c’est à cause de cela que cette approche ne donne aucune information supplémentaire sur la consonne elle-même. Par ailleurs, l’absence de significativité (p=0,2) des différences de D entre [j] et [v], avec 10pD chez les hommes est un autre exemple : dans ce cas, la moyenne de l’erreur et la déviation standard sont en effet respectivement de 0,013 avec 0,005 et 0,019 avec 0,006.
FIG. 3. — Étude, à partir de 11 courbes sinusoïdales, de l’influence de la fréquence du signal (inscrite sur chaque courbe) et de sa fréquence d’échantillonnage (en abscisse) sur la valeur de D (en ordonnée) obtenue par BDy avec 10pD à gauche, et 3pD à droite.
FIG. 4. — Étude, à partir de 6 fréquences d’échantillonnage (dont la valeur est inscrite sur chaque courbe) de la valeur de D (en ordonnée) obtenue par BDy avec 10pD à gauche, et 3pD à droite, d’un signal sinusoïdal en fonction de la fréquence de celui-ci (en abscisse).
Les méthodes et les résultats retrouvés dans la littérature doivent être discutés. Dans le passé, plusieurs auteurs ont proposé d’utiliser les propriétés de la géométrie fractale pour décrire les irrégularités de l’expression graphique du signal vocal. Mais les modes de mesure et les résultats étaient disparates. Une caractérisation globale a été tentée par Clarke et al. [5], qui, les premiers, ont enregistré le spectre de puissance de la parole pendant plusieurs minutes ; ils ont observé que celui-ci présentait une tendance en 1/f. Puis Pickover et al . [6] ont trouvé une dimension fractale de 1,6 pour une phrase de 2 s, aussi bien en employant la méthode des étalons de mesure de dimension décroissante [7], qu’en utilisant BDy. Les composants élémentaires de la parole ont été étudiés plus récemment. McDowell et al . [8], en utilisant BDy, ont trouvé une D différente pour les voyelles (1, 52), les plosives (1, 66) et les fricatives (1, 76), mais sans apprécier la significativité de ces résultats.
Bohez et al . [9] n’ont pas pour D fourni de valeur clairement définie. En utilisant des boîtes de différentes formes et un algorithme spécifique, Maragos [10] a montré que D des voyelles variait entre 1 et 1,3 en fonction de leur échelle d’analyse. Hertrich et al . [11], en employant un mode de mesure qu’ils avaient décrit pour une étude concernant l’électroencéphalogramme, ont comparé les valeurs des voix pathologiques et normales, mais n’ont pas fourni de résultats clairs et évidents pour les sujets normaux. Nakagawa et al. [12] ont proposé une méthode assignant pour les voyelles une valeur de D supérieure à 2, difficile à interpréter pour un signal temporel unidimensionnel.
Plusieurs raisons peuvent expliquer ces différences. Le matériel phonétique étudié n’est pas le même dans les différentes publications. Tantôt [12] les voyelles sont prononcées une seule fois par différents locuteurs, tantôt [9] 15 hommes et 10 femmes prononcent chaque phonème une seule fois. D’autres [11] ont aussi étudié des voyelles soutenues. D’autres enfin ne font appel qu’à un seul locuteur, et à différentes durées d’émission sonore [8]. En outre, la distinction entre autosimilarité et auto-affinité ou entre fractales, multi-fractales et chaos, a longtemps différé d’un auteur à l’autre. Or, le signal électrique représentant la parole, exclusivement étudié par tous ces auteurs, est topologiquement un signal à une seule dimension ; il varie seulement en intensité en fonction du temps. La dimension fractale de ce signal mesure le degré selon lequel les irrégularités de celui-ci remplissent l’espace du graphique représentant ses variations d’intensité en fonction du temps. Dans cette mesure, la D éventuelle d’un son sera comprise entre 1, qui est la valeur d’un son continu ou d’un son pur sinusoïdal, qui ne sont pas fractals, et 2 qui est celle d’un bruit blanc (Fig. 5).
Les valeurs de 10pD sont significativement plus élevées chez la femme que chez l’homme pour les voyelles et les consonnes fricatives longues voisées. Cette diffé- rence en fonction du sexe peut être expliquée par le fait que la fréquence fondamentale laryngée F , qui transporte la plus grande partie de l’énergie, est à peu près deux 0 fois plus élevée chez la femme que chez l’homme.
Notre étude démontre que, pour les voyelles, les valeurs de 10pD et 3pD tendent vers 1. Cela signifie que le signal des voyelles n’est pas fractal, ce qui est évident dans la
FIG. 5. — Comparaison de la valeur de D et de l’appréciation subjective de « rugosité » dans le cas de quelques signaux temporels unidimensionnels théoriques.
mesure où une voyelle est théoriquement un signal complexe périodique constitué de plusieurs signaux sinusoïdaux. Pourtant, 3pD, la signature des voyelles, fournit une matrice discrimination satisfaisante, à part le couple [∫] – [f]. Cela signifie que la rugosité de ces voyelles, qui se surajoute au signal périodique complexe qui les caractérise, est un élément qui permet de les différencier. Pour les consonnes longues non plosives, l’irrégularité du bruit qui les constitue a une structure qui tend à être fractale aux petites échelles, ce qui se traduit par des valeurs de 3pD significativement différentes, permettant d’établir une matrice de discrimination satisfaisante.
La parole est-elle fractale ? Rappelons tout d’abord que nos résultats ne concernent que les éléments brefs de la parole, et non l’évolution au long cours du signal de celle-ci [5, 6], qui est une information d’ordre mélodique, qui n’a pas d’intérêt dans le cadre du traitement du signal des prothèses auditives. En outre, nos résultats ne sont valables qu’entre les limites — impliquées par Fe — qui nous ont permis d’obtenir 10 points sur le graphe log-log. Dans cette mesure, notre travail montre que, si certaines voyelles ou consonnes présentent une 10pD significative, cette D n’est pas caractéristique de chacun de ces éléments, car aucune matrice de discrimination, tenant compte de leur nature fonctionnelle, n’est statistiquement signifiante.
Cela veut dire que cette propriété, quand elle existe, ne représente pas une information supplémentaire dans la reconnaissance de ces voyelles ou de ces consonnes.
En revanche, cette information existe si on considère la signature que constituent les valeurs de 3pD. Ces valeurs, comme celles de 10pD, permettent d’apprécier la rugosité, l’irrégularité du signal sonore. Cette signature mérite d’être utilisée dans l’étude de la parole. Par exemple, dans le suivi des voix pathologiques [13], nous l’avons déjà employée avec succès en montrant que cette approche fractale permettait de remplacer la glottographie, et dans une large mesure la sonagraphie. C’est en introduisant cette signature dans le traitement du signal des prothèses auditives, notamment l’implant cochléaire, que nous espérons en améliorer le traitement du signal. Elle pourrait être un élément d’appoint dans la reconnaissance de la parole.
Il serait tentant de comparer le résultat de notre travail avec ceux qui ont été obtenus par l’étude de l’éventuelle fractalité d’autres signaux biologiques, tels le rythme cardiaque ou l’évolution de certaines dérivations électroencéphalographiques. Mais il s’agirait d’une comparaison fort longue, qui mériterait à elle seule une étude particulière, car les paramètres sont différents, notamment la durée du signal, qui s’étale la plupart du temps sur plusieurs minutes.
CONCLUSION
Notre étude démontre que le signal de la plupart des composants de la parole, à l’exception des fricatives longues et des nasales, n’est pas fractal. Cependant on peut objectiver et quantifier la rugosité du signal, qui peut varier d’un locuteur à l’autre en fonction de diverses raisons psychologiques, anatomiques, etc. On peut aussi, pour les consonnes comme pour les voyelles, définir une sorte de signature pour chaque voyelle aux plus petites échelles, bien que la catégorisation qui en découle ne soit pas complètement signifiante pour tous les phonèmes. Ce nouveau paramètre a déjà des applications cliniques. Il représente une information supplémentaire, qui pourrait être utilisée dans le traitement du signal d’un implant cochléaire pour améliorer son intelligibilité. Nous travaillons actuellement dans cette direction.
BIBLIOGRAPHIE [1] PEAN V., OUAYOUN M., GENIN J., BACHELOT G., FUGAIN C., MEYER B., CHOUARD C.H. — Une amélioration du traitement du signal pour les implants cochléaires : la stimulation séquentielle asynchrone. Paris : Ann Oto-Laryng., 1997, 114 , 184-190.
[2] PEAN V., OUAYOUN M., CHOUARD C.H., MEYER B. — A semicontinuous box counting method for fractal dimension measurement of short single dimension temporal signals. In : Novak M, edit. Paradigms of complexity : fractals and structures in the sciences. London : World Scientific, 2000, 105-115.
[3] ROBINSON A. — Fractal fingers in viscous fluids. Sciences, 1985, 228 , 1080-1085.
[4] OUAYOUN M., PÉAN V., MEYER B., CHOUARD C.H. — A study of speech fractal dimension.
Acta
Otolaryngol (Stockh), 1999, 119 , 261-266.
[5] CLARKE J., VOSS R. — « 1/f » noise in music and speech.
Nature, 1975 , 258 , 317-318.
[6] PICKOVER C.A., KHORASANI A. – Fractal characterization of speech waveform graphs.
Comput & Graphics , 1986, 10 , 51-61.
[7] SMITH T.G., LANGE G.D., MARKS W.B. — Fractal methods and results in cellular morphologydimensions, lacunarity and multifractals. J Neurosci Methods , 1996, 69 , 123-136.
[8] MCDOWELL P.S., DATTA S. — A fractal approach to the characterisation of speech.
Acoustics letters , 1993, 17 , 7-11.
[9] BOHEZ E.L., SENEVIRATHNE T.R., VAN WINDEN J.A. — Fractal dimension and iterated function system for speech recognition. Electronics letters , 1992, 28, 1382-1384.
[10] MARAGOS P. — Fractal aspects of speech signals : dimension and interpolation.
Poc IEEE
IACSSP Toronto , 1991, 1 , 417-422.
[11] HERTRICH I., LUTZENBERGER W., SPIEKER S., ACKERMANN H. — Fractal dimension of sustained vowel productions in neurological dysphonias : An acoustic and electroglottographic analysis.
The Journal of the Acoustical Society of America , 1997, 102, 652-654.
[12] NAKAGAWA M., YAMAGUSHI T., SABANAL S., NAGANO M. — A study of fractal properties of vocal sounds. Technical report of IEICE , 1993, 11 , 93-87.
[13] PÉAN V., OUAYOUN M., FUGAIN C., MEYER B., CHOUARD C.H. — A fractal approach to normal and pathological voices. Acta Otolaryngol (Stockh) , 2000, 120 , 222-224.
DISCUSSION
M. Jacques-Louis BINET
Je ne voudrais pas qu’après cet exposé on confonde fractal et complexité. Je ne suis pas sûr que les exemples musicaux et picturaux soient très utiles pour la biologie et je crois qu’il faut surtout citer les exemples biologiques, l’exemple de Mandelbrot, les résultats biologiques du centre de morphologie mathématique de Fontainebleau, dirigé par Jean Serra. Le travail de Weibel est exemplaire puisque l’étude fractale a permis de retrouver « un certain moteur » qui correspond à une certaine fonction.
Dans cet exposé général, dont la fin seulement résume le résultat de nos travaux personnels en la matière, j’ai voulu montrer que ce mode nouveau de mesure peut s’appliquer, avec une approximation suffisante, à de nombreux domaines du monde réel, notamment les arts plastiques et la musique. Mandelbrot lui-même a d’ailleurs écrit un livre entier sur ce sujet.
M. Georges DAVID
Après l’intervention de Jacques-Louis Binet appelant à beaucoup de prudence dans le maniement des fractales, je voudrais venir en renfort des présentateurs, plaider en leur faveur dans certaines circonstances biologiques. Je n’ai qu’une expérience modeste des fractales mais, grâce à mon collaborateur D. Schovaert, j’ai pu constater leur utilité dans l’analyse
cinétique des trajectoires d’une cellule que j’ai beaucoup étudiée, le spermatozoïde. Les trajectoires étaient analysées sur les enregistrements cinématographiques. Selon la vitesse d’enregistrement d’une même longueur de déplacement parcourue, on obtient un trajet plus ou moins détaillé. L’analyse fractale des différents tracés nous a permis de déterminer la fréquence optimale de prise en vue, nous donnant un tracé qui est, alors, interprétable en terme de dynamique du mouvement flagellaire qui est l’appareil propulsif de cette cellule.
Je vous remercie de nous rappeler cet exemple. La fractalité est une mesure nouvelle qui ne s’applique qu’à certains objets, et seulement entre certaines limites avec une certaine approximation. Lorsqu’on sut mesurer la chaleur d’un corps, les physiciens s’empressè- rent de prendre la température de tout leur environnement. De la même manière, beaucoup d’équipes aujourd’hui recherchent cette fractalité. C’est relativement facile avec les ordinateurs récents, mais quand celle-ci existe, tout le problème est d’en comprendre la signification, et d’en tirer profit. C’est ce que montre très bien Sapoval dans son livre sur les fractales, qui est dans notre Bibliothèque. Dans la décennie à venir, ce mode de mesure va faire la preuve de son utilité.
** Chef du Service ORL du CHU Saint-Antoine — 184 rue du Fbg Saint-Antoine — 75012 Paris. Tirés-à-part : Professeur Claude-Henri CHOUARD, Laboratoire de Recherches ORL du CHU SaintAntoine — Service ORL — 184 rue du Fbg Saint-Antoine — 75012 Paris. Article reçu le 6 novembre 2000, accepté le 4 décembre 2000.
Bull. Acad. Natle Méd., 2001, 185, no 6, 1097-1111, séance du 19 juin 2001