Vous êtes sur la page 1sur 23

Modles de production

Shinji Maeda et Ren Carr


Centre National de la Recherche Scientifique, URA 820 Ecole Nationale Suprieure des Tlcommunications, Dpartement Signal 46, rue Barrault, 75634 Paris cedex 13 Tel. 45 81 71 91 - Fax 45 88 79 35 e-mail: carre@sig.enst.fr et maeda@sig.enst.fr Rsum Les aspects acoustiques de la production de la parole sont dvelopps dans ce texte et, en particulier, les relations entre la forme du conduit vocal et les reprsentations acoustiques (formants). Tout dabord, on rappelle la thorie acoustique dun tube lmentaire et, en particulier, les modes de rsonance, les fonctions de sensibilit. Ensuite, avec la thorie comme outil, nous examinons des notions fondamentales particulires la communication parle et la phontique acoustique, telles que le modle source-filtre, la structure des sons de parole, particulirement les voyelles, la thorie quantique de Stevens. Enfin, nous essayons dapporter quelques lumires sur lun des plus difficiles problmes poss en parole savoir les phnomnes de coarticulation et de rduction partir de la relation articulatoireacoustique. 1. Introduction La clbre phrase de Roman Jakobson Nous parlons pour tre compris , dcrit lessence mme de la communication parle chez lhomme. La production de la parole est un processus dencodage des messages qui sont crs par traitements linguistiques et phonologiques dans le cerveau. La parole est ensuite perue par un auditeur travers son systme auditif et le message linguistique est dcod par le cerveau de cet auditeur, compltant ce que nous appelons speech chain (Denes & Pinson, 1963). Au cours de cette session, nous nous intressons la description et la modlisation de la production, et plus spcifiquement, la configuration articulatoire, la forme du conduit vocal, et certains aspects arodynamiques et acoustiques. Les traitements de plus haut niveau, tels que les traitements linguistiques et phonologiques, le contrle moteur sont traits par ailleurs au cours de cette cole dt. Ici nous dveloppons particulirement la relation entre la configuration du conduit vocal et les caractristiques acoustiques des sons de parole. Grce aux travaux prcurseurs de Chiba & Kajiyama (1941) et Fant (1960), suivis par une succession de contributions (par exemple, Stevens & House, 1957; Fujimura, 1957; Stevens, 1971; Flanagan, 1972; Ishizaka & Flanagan, 1972), nous comprenons relativement bien les aspects acoustiques de la parole. Un concept important dcrivant la structure du signal de parole est le concept source-filtre : Des sources sonores subissent des modifications spectrales selon la forme du conduit vocal qui agit comme un filtre acoustique. Les sources peuvent tre ou voise ou/et non voise. La source vocale est cre par vibration des cordes vocales qui sont arodynamiquement pilotes. Un autre type de source sonore est le bruit de turbulence cr au niveau dune constriction le long du conduit vocal par un jet dair contre des obstacles tels que les dents ou les parois du conduit (ex. /s/). Ce type de bruit, souvent appel bruit de frication, est relativement soutenu sur une dure pouvant atteindre 100 ms. Lautre type de son non vois fait intervenir une occlusion comme pour la production de /p/

ou /b/. La gnration de ces sons implique une bonne coordination des commandes du larynx et du conduit vocal. Tout dabord, le conduit vocal est compltement ferm et la glotte est ouverte, entranant, derrire la constriction, une surpression laquelle devient proche de celle de la pression de lair dans les poumons. Ensuite, locclusion est brutalement relche entranant un fort dbit dair. Lacoustique dune telle source est complexe : le relchement rapide de locclusion module le dbit et gnre un son cohrent (oppos au bruit turbulent stochastique) qui est impulsionnel juste au moment du relchement. Une augmentation du dbit entrane la gnration dun bruit de frication. La dure de tels sons est trs courte (moins de 10 ms). Le bruit de frication disparat rapidement aprs le relchement, parce que louverture de la glotte devient tout de suite petite pour la prparation du voisement. Quand la commande de fermeture glottale est lente ou retarde par rapport la commande de relchement, un bruit turbulent prend naissance la glotte, qui est souvent appel bruit daspiration. Ceci se produit pour les occlusives non voises anglaises mais pas pour les franaises. On peut noter que ces sources peuvent caractriser les sons de parole selon cinq classes : Les sons voiss comme les voyelles, les fricatives non voises (comme /f/ et /s/) et voises (/v/ et /z/), les occlusives non voises (comme /p/, /t/, /k/), et voises (comme /b/, /d/, /g/). Des sons de mme classe comme les voyelles, par exemple, se diffrencient par les caractristiques acoustiques du filtre correspondant diffrentes formes du conduit vocal. Dans le paragraphe suivant, nous exposerons la thorie acoustique du conduit vocal, outil de base pour modliser ce conduit. 2. Thorie acoustique : outils d'tude de la structure des sons de parole 2.1. Fonction daire et quations acoustiques Nous considrons le conduit vocal comme un tube acoustique. La forme du conduit vocal est gomtriquement complexe. La figure 1a donne un exemple de conduit vocal en 3D pour la voyelle /i/ mesur au moyen de techniques IRM. Le conduit vocal forme un angle de 90 en son milieu. Bien que cette courbure joue un rle intressant pour le positionnement de la langue et les caractristiques acoustiques associes des sons de parole (voir Maeda & Honda, 1994, par exemple), elle na pas deffet acoustique pour des frquences infrieures 5 kHz.

Le conduit courb peut donc tre redress sans modification sensible de ses caractristiques acoustiques. De plus, le mode principal de propagation des ondes sonores lintrieur dun tube est longitudinal, spcialement pour des frquences infrieures 4 kHz. Nous pouvons ignorer le mode de rsonance transversal et supposer que la propagation de londe lintrieur du tube est plane. Si nous admettons aussi que la section transversale est circulaire, un tube droit, comme schmatis Figure 1b, est acoustiquement quivalent au conduit vocal original de la Figure 1a. Ceci veut dire que la forme de la section transversale nest pas importante, mais seulement laire. En consquence, les caractristiques du conduit vocal observ peuvent tre reprsentes par la fonction daire qui spcifie la variation de la section transversale de la glotte aux lvres comme montr Figure 1c, pour laquelle la propagation des sons selon une seule dimension peut tre calcule par une mthode classique de lacoustique. Soit une fonction daire variant dans le temps A( x , t ) , o x est la distance partir de la glotte et t le temps. Pour simplifier, on suppose que les parois du conduit sont rigides, bien que leffet de parois non rigides soit gnralement pris en compte dans les solutions numriques. Alors, la pression p( x , t ) (dyne/cm2) et le dbit u( x , t ) (cm3/sec) lintrieur du tube sont des solutions, en premire approximation, des deux quations diffrentielles suivantes : lquation de mouvement (EQMO) (parfois appele quation de conservation du mouvement) et lquation de conservation de la masse (EQMA) :

p u ru = + x t A A

(EQMO)

et

u Ap A = + x t c 2 t

(EQMA).

Ces quations reprsentent le comportement de la ligne de transmission du conduit vocal. Dans EQMO et EQMA, et c indique respectivement la densit de lair lquilibre et la vitesse du son. A lintrieur du conduit vocal avec une temprature de 37C, = 1.14 gm/cm3 et c = 3500 cm/s. Pour rsoudre les quations prcdentes, il est ncessaire de spcifier les conditions aux limites chacune des extrmits. Supposons que labscisse la glotte soit x g = 0 , et celle aux lvres soit x = l . Alors, les conditions aux limites pour chacune des extrmits sont :

p( 0, t ) = Ps
et
u(l,t) = !
t

(BCGL)

p(l,t) p(l,t) dt + Lrad Rrad

(BCLIP).

La glotte est directement relie une source de pression Ps , qui est denviron 8 cm H2O, reprsentant la surpression de lair dans les poumons (cest la source dnergie). Le tube, cot lvres, se termine par une charge de rayonnement qui est reprsente, en premire approximation, par une inductance Lrad et une rsistance en parallle Rrad (Flanagan, 1972). La valeur de ces deux lments est calcule en fonction de la section transversale de

louverture aux lvres qui est suppose tre place dans un baffle infini ou dans un baffle sphrique reprsentant la tte. On peut noter que ces quatre quations sont toutes ncessaires pour calculer et synthtiser les sons de parole partir dune fonction daire approprie variant dans le temps. Lentre du systme est une fonction daire variant dans le temps. La premire section du tube correspondant la glotte varie rapidement et reprsente loscillation des cordes vocales. La fonction du temps glottale peut tre spcifie par une formule empirique, telle que le modle LF (Fant & al., 1985), ou en modlisant les aspects biomcaniques et arodynamiques du larynx, comme dans le modle deux masses propos par Ishizaka & Flanagan (1972). La fonction daire correspondant la partie suprieure du conduit vocal varie de faon beaucoup plus lente compar la section glottale. Cette variation, naturellement, est le rsultat de lactivit des articulateurs, tels que la langue, les lvres, etc... De plus, si ncessaire, la fonction daire peut intgrer la trache qui est reprsente par un tube fixe denviron 20 cm de long. Dans ce cas, la glotte est positionne au milieu de la fonction daire. Pour la nasalit, une branche reprsentant le conduit nasal est connecte en parallle sur le conduit vocal. Lquation de propagation peut tre analytiquement rsolue seulement dans un cas particulier, i.e., pour le tube uniforme avec des conditions aux limites idales. Dans le cas gnral, la solution est obtenue par calcul numrique, souvent appele simulation acoustique . Le calcul dans le domaine temporel a t propos par Ishizaka & Flanagan (1972) et Maeda (1982), ce qui donne des signaux de parole synthtique. Le calcul dans le domaine frquenciel a t dvelopp par Mrayati (1976), Wakita & Fant (1978), pour en mentionner quelques uns; ce qui conduit la fonction de transfert reliant le signal rayonn au signal de source glottale ou de bruit en fonction de la frquence. Une mthode hybride de calcul dans le domaine frquenciel suivie dune conversion dans le domaine temporel a t propose par Sondhi & al. (1987). Les mthodes de simulation sont hors du champ de ce cours. Nous dcrirons ici la notion importante de source-filtre pour modliser les sons de parole ainsi que les solutions pour un tube uniforme car ces connaissances forment un base pour caractriser la structure des sons de parole et pour relier les diffrentes reprsentations du conduit vocal par filtres numriques, reprsentations utilises en analyse et synthse de signaux de parole par traitements numriques. 2.2. Modle de source-filtre des sons de parole La plupart des sons de parole sont gnrs en modulant le dbit dair qui est cr par une surpression dans les poumons. Cette pression est suprieure de 8 cm H2O par rapport celle de latmosphre qui est denviron 1000 cm H2O. Puisque les poumons reprsentent un grand rservoir dair, ils se comportent comme une source de pression constante. Dans le cas des sons voiss, le dbit est modul par la vibration des cordes vocales. En gros, la vibration des cordes entrane un changement de la section transversale de la glotte ce qui modifie la rsistance au dbit (laquelle peut tre est reprsente par R dans EQMO ci-dessus.) Lexcitation glottale est une partie du systme acoustique dcrit par les quations acoustiques prcdentes et donc, en ce sens, la glotte fait partie du conduit vocal. Mais, par approximation, il est possible de sparer lensemble poumons-glotte qui agit comme une source et le conduit vocal qui agit comme un filtre acoustique. Cette approximation est raisonnable car la section glottique est trs petite compare au reste du conduit. En phase de voisement, elle est maximum pour 0.2 cm2 avec une valeur moyenne de 0.05 cm2, ce qui correspond environ 100 cgs ohms acoustique. Limpdance dentre du conduit vocal vue cot glotte est infrieure ou comparable la rsistance glottique pour des frquences basses (autour de celles du

premier formant); elle devient beaucoup plus petite pour des frquences plus leves. Lensemble poumons-glotte (source de pression et rsistance interne variant dans le temps) peut tre remplac par une source de dbit de rsistance interne infinie. Lorsque lair passe travers une constriction du conduit vocal, un jet est produit. Lorsque le jet dair rencontre un obstacle, tel que les dents dans le cas des fricatives dentales /s/, ou une surface, telle que le palais dans le cas de la vlaire /X/, une forte turbulence se produit provoquant la gnration de bruit. Bien que moins efficace, un jet envoy dans un grand espace ou ans une cavit comme dans le cas de la production de la bilabiale fricative /F/ gnre aussi du bruit. Ce type de bruit peut tre reprsent par une source en diple de pression (Shadle, 1990). Dans la reprsentation source-filtre, la source de bruit est quivalente une source de pression ayant une rsistance interne nulle. Les sons de parole sont dcrits en prenant en compte les caractristiques de la source, du filtre (conduit vocal) et de leffet de rayonnement qui sont indpendants les uns des autres. Les caractristiques du conduit vocal sont dfinies par la relation entre la vitesse du volume la glotte u(0, t ) qui est gal au dbit glottique ug ( t ) et la vitesse du volume aux lvres u( l , t ) . Quand cette relation est dfinie dans le domaine frquenciel, ce rapport est appel fonction de transfert du conduit vocal :
H( f ) = U ( 0, f ) U (l , f ) = U (l , f ) Ug( f )

La variation de la pression un point loign des lvres, s( t ) est proportionnelle la drive par rapport au temps de la vitesse du volume aux lvres, aussi la fonction de transfert intgrant leffet de rayonnement est donne par :
R( f ) S( f ) , U (l , f )

ce qui nest rien dautre quune action en +6 bd/oct. dans lchelle des frquences (correspondant la drive dans le temps). On doit noter que l effet de rayonnement est diffrent de la charge de rayonnement dfinie comme BCLIP. Leffet de la charge de rayonnement apparat sur le dbit aux lvres par une diminution des frquences des formants et un accroissement des bandes passantes, de plus en plus significatif hautes frquences. Souvent on ignore la description explicite de la charge de rayonnement sur la reprsentation source-filtre. Maintenant que la source glottique et le rayonnement sont spcifis dans le domaine frquenciel on a :
S ( f ) = U g ( f ) H ( f ) R( f ) .

La formulation pour dcrire la structure fondamentale des sons de parole est extrmement concise. Si nous prenons le logarithme de lquation (en dB par exemple), le spectre de parole, S ( f ) , est simplement la somme des caractristiques de source, du conduit vocal et du rayonnement. Comme nous lavons dj indiqu, la fonction de transfert du conduit vocal H ( f ) joue le rle principal pour distinguer un son de parole dun autre.

2.3. Caractristiques acoustiques des tubes uniformes

Supposons ici un tube uniforme statique sans perte. EQMO et EQMA, se simplifient alors en :

p u = x A t
u A p = 2 x c t

(EQMO)

et

(EQMA)

respectivement. La solution est de la forme suivante :


u( x , t ) = u + (t x c) u (t + x c)

(1a)

et
p( x , t ) =

{u (t x c) + u (t + x c)} , A
+

(1b)

o u + et u sont, respectivement, les ondes de propagation dans des sens opposs, dcrites par :
u + (t x c) = Pe j ( t x c ) et u ( t + x c) = Qe j ( t + x c ) ,

pour une frquence angulaire = 2 f . La valeur des constantes, P et Q , est dtermine par les conditions aux limites pour chacune des extrmits du tube. Si nous supposons que les extrmits du tube sont ou fermes ou ouvertes, il y a trois combinaisons diffrentes de conditions. Tube avec les deux extrmits fermes (ferm/ferm) Quand une extrmit est ferme, le dbit cette extrmit doit tre nul, puisque lextrmit est rigide et quil ny a pas de changement de volume dair. On a donc aux deux extrmits u ( 0, t ) = 0 and u( l , t ) = 0 comme conditions aux limites. Nous obtenons alors les relations suivantes :
P = Q et sin

l
c

= 0.

La deuxime relation montre quil existe une solution pour des frquences spcifiques donnes par :
f =n c (Hz) ( n = 1, 2 , 3, ) . 2l
(2)

Ces frquences correspondent celles des rsonances du tube. Eq. 2 indique que si un tube ferm/ferm rsonne, plusieurs rsonances peuvent intervenir mais seulement ces frquences. Les frquences sont effectivement un multiple entier de la demi-longueur donde du tube ( = c f ) et sont appeles rsonances demi-onde. La solution la n -me frquence devient :

un ( x , t ) = Cn sin

nct n x sin l l

( n = 1, 2 , 3, ) .

Londe dcrite ici est parfois appele onde stationnaire en terme de dbit. Son amplitude varie continment le long du tube et est spcifie par le premier terme en sinus . Les volutions des modes, i.e., les variations damplitude spatiale le long du tube, pour les deux premires rsonances, sont montres Figure 2a en traits pleins. Les traits pointills indiquent la pression. Tube avec les deux extrmits ouvertes (ouvert/ouvert) Si lon suppose que limpdance de rayonnement est ngligeable, i.e., quil ny a pas de rayonnement du sons lextrieur du tube, alors la variation de pression lextrmit du tube doit tre nulle puisque cette variation est nulle juste lextrieur (condition de continuit de la pression). Nous avons ainsi les conditions aux limites, p( 0, t ) = 0 et p(l , t ) = 0 , ce qui entrane:

Q = P et sin

l
c

= 0.

Alors il y a donc rsonance pour les mmes frquences que dans le cas ferm/ferm prcdent (Eq. (2)). Le tube ouvert/ouvert, par consquent, prsente des rsonances demi-onde. Cependant, les volutions des modes ne sont pas les mmes, comme montr Figure 2b, puisque la solution devient :
un ( x , t ) = Cn cos nct n x cos l l ( n = 1, 2 , 3, ) .

On peut noter que les formes des modes pour la pression et le dbit sont inverses par rapport la situation ferm-ferm. Tube avec une extrmit ferme et lautre ouverte (ferm/ouvert) Supposons maintenant le tube ferm pour x = 0 et ouvert lautre extrmit x = l . Alors les conditions aux limites deviennent :
u ( 0, t ) = 0 et

p(l , t ) = 0 ,

respectivement, ce qui donne les relations suivantes :

Q = P et cos

l
c

= 0.

La seconde relation donne les frquences de rsonance pour :


f n = ( 2n 1) c (Hz) 4l

(n = 1,2,3, ) .

(3)

Les frquences de rsonance correspondent aux multiples entiers impairs du quart de la longueur donde du tube. Pour la premire rsonance, sa valeur est la moiti par rapport aux deux cas prcdents (pour une mme longueur). Cette proprit est parfois utilise dans un orgue tuyau. En bouchant lextrmit du tuyau dorgue, on diminue dun octave sa frquence, mais avec un changement de timbre, car les frquences de rsonance dun tube ouvert/ouvert sont diffrentes de celles dun tube ferm/ouvert (Eq. (3)). La solution est donne par :
" 2n 1 x % " 2n 1 ct % un ( x , t ) = Cn sin$ ' sin$ ' # 2 l & # 2 l &

(n = 1,2,3, ) .

Les modes des deux premires rsonances quart donde sont reprsents Figure 3c. Nous avons donn les solutions pour le tube uniforme de conditions aux limites varies. Pourquoi sont-elles utiles pour des problmes phontiques? Par exemple, le tube ferm/ouvert est intressant car le conduit vocal correspondant la voyelle neutre peut tre reprsent par un tube uniforme ferm la glotte et ouvert aux lvres. Supposons que la vitesse de lair soit c = 3500 (cm/s) et que la longueur du conduit soit de 17.5 cm, ce qui correspond environ la taille dun locuteur adulte masculin, alors les frquences sont prdites par Eq. (3) soit f n = ( 2n 1)500 , savoir, 500, 1500, 2500 (Hz), etc.... Ces frquences correspondent rellement aux formants de la voyelle neutre. Quen est-il maintenant des deux autres configurations? Comme la forme du conduit vocal ou plus prcisment, la fonction daire des diffrentes voyelles peut tre reprsentes par une succession dun petit nombre de tubes uniformes, ses caractristiques acoustiques (formants) peuvent tre estimes, grossirement, partir de leurs frquences de rsonance, connaissant le type de rsonance de chaque tube uniforme (voir section 3). On peut noter ici que nous distinguons le terme formant du terme rsonance : un formant est un pic spectral observ dans le signal de parole. Le spectre de parole, cependant, contient aussi des informations sur la source comme on la dj indiqu. Dans le cas de sons voiss, les caractristiques spectrales de la source apparaissent comme une structure harmonique, refltant la nature quasi-priodique de la source vocale. Par consquent, sur le spectre de parole, on observe seulement un ensemble dharmoniques des frquences correspondant des multiples entiers de la frquence fondamentale, qui est modul par les rsonances du conduit vocal. En consquence, la position du formant, parfois qualifie de zone de concentration dnergie spectrale ne correspond pas toujours une rsonance. Fonction de transfert dun tube uniforme Avant de passer au paragraphe suivant, calculons la fonction de transfert dun tube uniforme ferm/ouvert, ce qui devrait nous aider mieux comprendre intuitivement lacoustique du conduit vocal. Pour cela, nous avons besoin demployer diffrentes conditions aux limites la

glotte, puisque nous devons explicitement exciter le conduit vocal par une source de dbit u g (t ) . Supposons une excitation la glotte sinusodale, nous avons la condition aux limites suivante :
u( 0, t ) = u g (t ) = U (0, ) cos(t ) .

La condition aux limites aux lvres est celle correspondant une extrmit ouverte comme dcrit auparavant. En utilisant ces deux relations, les deux constantes de la solution de Eq. (1) sont dtermines ce qui conduit la fonction de transfert suivante :
H ( ) = U (0, ) U (l , )
=

cos(l c)

On pourrait noter que la fonction de transfert contient des pics rgulirement espacs des frquences pour lesquelles le dnominateur sannule. En ce sens, ces frquences sont aussi appeles ples de la fonction de transfert. La figure 3 montre le calcul de la fonction de transfert en supposant l = 17.5 cm et c = 3500 cm/s. Les frquences des pics sont identiques celles obtenues prcdemment pour le tube ferm/ouvert. Ceci est d au fait que la source de dbit ayant par dfinition une impdance interne infinie correspond la condition aux limites dun tube ferm. Les ples correspondent alors exactement aux rsonances du tube uniforme. Les amplitudes des pics sont aussi infinies. Dans ce cas, nous supposons que le tube est sans perte avec des conditions aux limites idales, i.e., ferm cot glotte et sans impdance de rayonnement cot lvres. Nous verrons dans le paragraphe 3 des ensembles de rsonance identiques, mais dont les pics sont des frquences diffrentes selon la forme du conduit vocal. Ces diffrents ensembles de rsonance (et par consquent de formants) sont importants car ils caractrisent chacun des sons de parole.

Avant de passer au paragraphe suivant, notons que la solution de lquation acoustique, Eq. 1, est directement relie une reprsentation de filtre numrique du conduit vocal selon la formulation de Kelly-Lochbaum (1962). Le filtre numrique peut tre transform pour favoriser certaines caractristiques comme lconomie de calcul, la robustesse des oprations arithmtiques entires, ou comme des paramtres ayant une

signification phontique tels que les formants, etc... (Markel & Grey, 1976; Rabiner & Schaffer, 1978). Lapproche filtre numrique est aussi retenue comme solution numrique pour reprsenter de manire plus raliste lacoustique du conduit vocal, le conduit variant dans le temps (Strube, 1982; Liljencrants, 1985), la charge de rayonnement (Laine, 1982).

2.4. Fonctions de sensibilit Nous sommes intresss par la relation entre les formes du conduit vocal, exprimes gnralement en fonctions daire, et les caractristiques acoustiques correspondantes, souvent exprimes en termes de rsonance (formants) Une faon dvaluer cette relation est dtudier ce que produirait une petite dformation locale de la fonction daire sur les frquences de formants. Ce qui sexprime par la sensibilit : S n ( x ) = Fn A( x ) ,
correspondant une variation du n -me formant pour une petite dformation de la section de la fonction daire pour la position x . Outre quelques applications pratiques, une telle fonction est intressante car elle a une dfinition physique explicite. Schroeder (1967) a exprim de faon trs lgante la relation entre une petite perturbation d'aire transversale et la variation de frquence des formants en utilisant le thorme de Ehrenfest, qui postule que la variation relative de frquence est gale au changement relatif d'nergie du systme. Pour un systme acoustique, Le changement dnergie est spcifi par la diffrence entre lnergie cintique, qui est proportionnel au carr du dbit un ( x , t ) , et lnergie potentielle, qui est proportionnelle au carr de la pression pn ( x , t ) . Pour un tube uniforme, tel que le tube (ferm/ouvert) dcrit prcdemment, nous avons les solutions analytiques en cosinus ou en sinus, donc la fonction de sensibilit est :
A( x ) " Fn x % = cos$ (2n 1) ' . # Fn A( x ) l &

La fonction de sensibilit prdit, par exemple, quun accroissement de la section aux lvres ( x = l ), entrane une augmentation de tous les formants. La formulation de Schroeder suppose des conditions sans perte. Charpentier (1986) a dvelopp une mthode lagrangienne danalyse de la sensibilit. Nous montrerons ultrieurement comment exploiter la fonction de sensibilit dans le cadre de la relation aire-formant.
3. Modlisation : Voyelles

3.1. Formants et configurations du conduit vocal pour les voyelles La figure 4 montre le classique plan F1-F2 (les premiers et second formants) avec les 10 voyelles anglaises (Peterson & Barney, 1952).

Parce que les mmes voyelles sont reprsentes pour diffrents locuteurs et diffrents contextes phontiques, la distinction dune voyelle une autre nest pas toujours vidente. Nanmoins, elles remplissent une forme triangulaire caractristique appele triangle vocalique. De plus, les voyelles sont distribues de Haut vers Bas en suivant laxe F1 et dArrire vers lAvant en suivant laxe F2. Par consquent, laxe F1 correspond la dimension [High/Low] et F2 la dimension [Front/Back]. Suite cette observation, les voyelles sont souvent spcifies par les valeurs F1-F2 (ou parfois F1-F0 et F2-F1, o F0 est la frquence fondamentale). Cependant, des voyelles se distinguent mieux avec des formants plus levs. Par exemple, les voyelles franaises /i/ et /y/ qui ont un similaire ensemble F1/F2. Dans ce cas, elles sont distingues par la position relative de F3 entre F2 et F4. F3 tant proche de F2 correspond /y/ et proche de F4 correspond /i/. Les descripteurs, tels que Haut et Bas, sont appels traits distinctifs en phonologie, et sont lis par la position observe de la langue. La figure 4 montre les profils du conduit vocal gnrs par un modle pour 11 voyelles franaises (page 50 dans Calliope, 1989). Sur la figure, les voyelles sont arranges de faon ce que la position du dos de la langue passe davant en arrire. Topologiquement, cependant, les positions relatives des voyelles correspondantes dans lespace acoustique (tel que le plan F1/F2 de la figure 4) et dans lespace articulatoire de la figure 5 sont identiques. Comment a-t-on une telle correspondance? Nous allons tudier cette question dans le paragraphe suivant.

3.2. Modlisation de voyelles au moyen de tubes lmentaires Considrons ici les trois voyelles extrmes, /i/, /A/, et /u/, qui se trouvent aux extrmits des espaces acoustiques et articulatoires. Nous considrons ici un simple modle de fonction daire. Il a un tube laryngal fixe de 2 cm de long et 2 cm2 de section quelle que soit la voyelle. Seule la partie suprieure du larynx sera modlise par une combinaison dun petit nombre de tubes uniformes de diamtres diffrents (section transversale).

Voyelle /i/ La partie suprieure de la figure 6a montre en trait fin la fonction daire de la voyelle /i/ estime partir de mesures sur un conduit vocal humain (Bo, 1973). La configuration du conduit vocal de /i/ est caractrise par une grande cavit pharyngale relie une petite cavit buccale. Base sur cette observation, la fonction daire du modle est indique en traits pais. Les fonctions de transfert correspondantes de ces deux fonctions daire sont montres dans la partie basse de la partie infrieure de la figure 6a. Nous avons suppos des parois rigides et labsence de charge de rayonnement pour calculer la fonction de transfert. A haute frquence, la diffrence entre les deux fonctions de transfert est importante mais basse frquence, disons jusquau troisime formant, les deux fonctions de transfert correspondent plutt bien, indiquant que la simplification extrme de fonctions daire trs complexes lorigine par deux tubes semble valide. Les quatre premiers formants calculs partir de ces fonctions de transfert sont montrs Table 1a. Nous allons essayer de montrer que la correspondance est due au fait que le modle deux tubes de la voyelle /i/ reprsente la structure acoustique de base de cette voyelle. La fonction daire deux tubes comporte une forte discontinuit environ la moiti de la longueur du conduit. A cause de cette discontinuit, les deux tubes peuvent tre considrs comme acoustiquement indpendants pour certains types de rsonances. Le cot glotte de la cavit du pharynx peut tre suppos ferm. De lautre cot, cette cavit est relie au tube de la bouche qui a relativement une petite section. Le tube du pharynx peut donc tre considr comme un tube ferm/ferm. Par consquence, les frquences de rsonance peuvent tre calcules par Eq. (2) pour la rsonance demi-onde. Pour la longueur du tube l = 8 cm, les deux premires frquences de rsonance sont :

R ph 1 =2188 et R ph 2 = 4375 (Hz),


en supposant que la vitesse du son soit de 35000 cm/sec. Le second tube reprsentatif de la cavit buccale est ouvert cot lvres. De lautre cot, ce tube troit est ouvert sur la grande cavit du pharynx. Par consquent, ce second tube peut tre regard comme un tube ouvert/ouvert ayant aussi une rsonance demi-onde. Avec cette longueur de l = 5 cm, les deux premires rsonances sont calcules par Eq. (2) :
Rbu 1 = 3500 and Rbu 2 = 7000 (Hz).

Tableau 1. Frquences de formants calcules partir de fonction d'aire mesure (FdA), d'un modle simple avec n-tubes (Mod.), et de rsonances dans des tubes indpendants (Reso.) pour les trois voyelles extrmes.

(a) Voyelle /i/ FdA Mod. Reso. F1 192 232 241 RH


ph bu

(b) Voyelle /A/ F1 F2 F3 F4 F1 683 1339 2501 3513 249 683 1379 2699 3410 273 972 1094 2917 3281 440 R ph 1 Rbu 1 R ph 2 Rbu 2 RH 4 4 4 4 bu lp

(c) Voyelle /u/ F2 770 752 608


RH
ph vl

F2 F3 F4 2245 3207 3748 2035 3372 3825 2188 3500 4375 R ph 1 Rbu 1 R ph 2 2 2 2

F3 F4 2276 3559 2369 3450 2500 3500 Rvl 1 Rbu 1 2 2

En consultant la Table 1a, il est vident quaucune de ces rsonance demi-onde corresponde un F1 ayant une trs basse frquence, moins de 300 Hz. Or on sait quune grande cavit relie un tube troit appel goulot entrane une rsonance de type Helmholtz. Sa frquence est fonction du volume de la cavit, V (cm3), et le rapport de la longueur, l (cm), et la section, S (cm2), du goulot :

RH =

1 c 2 V ( l S )

(Hz).

(4)

En utilisant les valeurs drives des fonctions daire des deux tubes pour la voyelle /i/, V = 80 cm3, l = 5 cm, and S = 0.75 cm2, la frquence calcule est :
RH = 241 Hz.

Par dfinition, le numro du formant est identifi selon lordre des frquences croissantes, RH , R ph 1, Rbu 1, et R ph 2 qui correspondent respectivement F1, F2, F3, et F4, comme indiqu Table 1a. Notons que ces frquences de formants se comparent favorablement avec celles calcules partir des fonctions de transfert. Voyelle /A/ La fonction daire mesure pour /A/ est montre Figure 6b par un trait fin. Elle est caractrise par un tube pharyngal troit et un tube buccal large. Cette forme peut tre dcrite par un modle deux tubes comme indiqu en trait pais. Le tube pharyngal est ferm cot glotte et ouvert cot bouche. Cest donc un tube ferm/ouvert. Inversement, le large tube buccal est reli au tube troit du pharynx. Cest donc un tube ferm/ouvert. Le type de rsonance de ces deux tubes est quart donde et les frquences sont donnes par Eq (3). La longueur du tube pharyngal, incluant les 2 cm du tube laryngal, l = 9 cm, on a:
R ph 1 =972 et R ph 2 = 2917 (Hz).

La longueur de la cavit buccale, l = 8 cm, donne pour les frquences quart donde :

Rbu 1 = 1094 et Rbu 2 = 3281 (Hz).


F1, F2, F3, et F4, doivent correspondre, respectivement R ph 1, Rbu 1, R ph 2 , et Rbu 2 , comme indiqu Table 1b o nous avons aussi les formants obtenus partir de la fonction de transfert. Voyelle /u/ La fonction daire mesure pour /u/, comme indiqu Figure 6c par le trait fin met en vidence deux grandes cavits relies par un tube troit. Cette sorte de configuration est le rsultat de manoeuvres articulatoires o le corps de la langue est pouss en arrire et vers le haut. Pour la production de /u/, au moins quatre tubes sont ncessaires pour reprsenter la fonction daire de /u/ comme montr Figure 6c en trait pais. Les fonctions de transfert calcules sont montres Figure 6c et les frquences des formants pour les fonctions daire mesures et modlises par le modle 4 tubes sont donnes Table 1c. A nouveau, nous obtenons un accord correct entre les deux situations.

Puisque quil y a deux cavits, nous avons donc deux rsonateurs dHelmholtz en cascade. Supposant une isolation acoustique entre les deux rsonateurs, leurs frquences sont calcules partir des dimensions gomtriques de chacun des rsonateurs par Eq. (4) :
RH ph = 608 et RH bu = 440 (Hz),

respectivement. F1 et F2 de la voyelle /u/ correspondent, par consquent, RH bu et RH ph . Les plus haut formants sont relis aux rsonance demi-onde des tubes. La rsonance lintrieur du plus long tube, i.e., le tube de constriction centrale avec 7 cm de long, doit correspondre F3, dont la frquence est calcule par Eq. (2) telle que F3 = Rvl = 2500 Hz. F4 correspond la rsonance lintrieur de la cavit buccale de 5 cm de long, donc F4 = Rbu 1 = 3500 Hz. Ces rsultats sont rsums Table 1c. Discutons maintenant des implications concernant ces voyelles extrmes en termes de modle de tubes simples. Puisque ces voyelles sont places aux coins de lespace vocalique, comme montr Figure 4, elles sont maximalement distinctes acoustiquement et donc perceptuellement. Il est intressant de noter que lhomme et plus prcisment le cerveau, semble exploiter les diffrents types de rsonance pour obtenir ce maximum de distinctivit. F1 et F2 de la voyelle /i/ sont une combinaison de la rsonance Helmholtz et de la rsonance demi-onde de la cavit pharyngale (dans notre exemple). La frquence de la rsonance Helmholtz peut tre trs basse, car elle dpend de la section transversale du goulot qui peut tre trs petite. Ceci est la seule faon possible dobtenir une frquence aussi basse que 300 Hz avec la dimension du conduit vocal humain. La rsonance demi-onde met F2 une frquence suprieure environ 2 kHz. Puisque F1 et F2 de la voyelle /a/ sont relis la rsonance quart donde, leurs frquences sont environ moiti du F2 de /i/, i.e., environ 1 kHz, donc ses caractristiques acoustiques sont distinctivement diffrents de celles de /i/. A cause du double rsonateur Helmhotz de la configuration /u/, F1 et F2 peuvent tre trs bas, ce qui contraste avec les autres voyelles. Par ailleurs, la morphologie du conduit vocal humain, courbe 90 au centre, facilite la reproduction de ces configurations extrmes comme le montre des tudes de modlisations articulatoires (ex. Coker, 1976; Majid, 1986; Maeda, 1990). Peut tre est ce la raison pour laquelle la plupart des langues du monde ont les voyelles des trois angles du triangle dans leurs inventaires. Bien que nous ne soyons pas si sur des implications phontiques, la caractrisation cidessus en termes de combinaisons de diffrents modes de rsonance conduit trois catgories de voyelles, les voyelles de type I, A et U. Les autres voyelles peuvent tre gnres en modifiant certaines valeurs de la gomtrie des tubes. Par exemple, les voyelles franaises peuvent tre classes en : type I / i, e, E, y, o/; type A / oe (un tube uniforme), a, et A/; type U /u, o, et O/.

3.3 Thorie quantique de Stevens et affiliation formant-cavit Stevens (1972 et 1989) a propos ce quil appelle la thorie quantique. Cette thorie met en vidence le fait que la relation articulatoire-acoustique nest pas homogne : il y a des rgions pour lesquelles un petit changement dun paramtre acoustique nentrane pas de consquence acoustique significative (une rgion de stabilit) et inversement, il y a dautres rgions pour lesquelles un petit changement dun paramtre articulatoire entrane une consquence acoustique significative (une rgion dinstabilit). De plus, Stevens postule le fait que les rgions stables sont appropries pour la production des voyelles dans la mesure o cette production pourrait seffectuer sans demander une grande prcision des positions

articulatoires alors que les rgions instables seraient appropries pour la production des consonnes car un petit mouvement articulatoire peut entraner de grandes variations acoustiques ncessaires pour distinguer ces consonnes (telles que /b, d, g/). Nous dcrirons ici, avec plus de dtails, la thorie quantique en utilisant le modle deux tubes employ dans le paragraphe prcdent pour reprsenter la voyelle /A/. Considrons la longueur de la cavit du pharynx, x1 (cm), comme paramtre articulatoire. Si nous supposons que la longueur totale du conduit vocal est de 17 cm, alors la longueur de la cavit buccale devient (17 - x1 ) cm. La section transversale de ces cavits reste constante. La configuration du conduit vocal est alors uniquement spcifie par le paramtre x1 . Si les deux tubes sont supposs tre acoustiquement non coupls, alors seuls des modes de rsonance quart donde sont possibles. Donc x1 dtermine non seulement la gomtrie du conduit mais aussi lacoustique puisque la rsonance quart donde est indpendante de la section. On reprsente en traits pais, Figure 7, les frquences calcules des trois premires rsonances (par Eq. (3)) en fonction de x1 . Sur la mme figure, on reprsente en pointills pais les frquences de rsonance de la cavit buccale en fonction de (17 - x1 ). Rph 1 et Rbu 1, et R ph 2 et Rbu 2 se coupent au centre pour, x1 = 8.5 cm. Ceci est normal car alors les longueurs des deux cavits sont gales. Ce croisement de rsonance, donc de formants, nest pas obtenu dans le cas de tubes acoustiquement coupls comme dans la reprsentation du modle deux tubes. Les traits fins de la Figure 7 reprsentent les frquences des cinq premiers formants obtenues par calculs de la fonction de transfert en simulation acoustique. Notons que F1 et F2, et F3 et F4 deviennent proches mais ne se coupent jamais. Un tel phnomne est aussi observ entre F4 et F5. Les rsultats du calcul des rsonances et de la simulation acoustique manifestent par consquent de grandes diffrences. Ceci est d au couplage relativement important entre les deux cavits dans ces rgions spcifiques et en consquence, lhypothse dindpendance acoustique des deux tubes, ncessaire pour le calcul des rsonances, est moins valide ici. Cependant, pour les autres rgions, (5 x1 7 et 10 x1 12 ) cm, les correspondances pour F1, F2, et F3 sont tout fait bonnes, car les deux tubes sont relativement bien isols acoustiquement pour ces modes de rsonances. De bonnes correspondances sont aussi obtenues pour x1 = 11 cm, o F1 et F3 sont dus aux rsonances pharyngales et F2 et F4 celles de la bouche. Ces correspondances sont appeles associations cavit-formant.

On peut noter le changement daffiliation, entre F1 et F2, et F3 et F4, qui sopre au centre pour x1 = 8.5 cm, o la stabilit des trois formants se manifeste pour une petite variation du paramtre articulatoire x1 . Dans dautres rgions, les frquences des formants varient en fonction de x1 , selon la rsonance quart donde. Nous comprenons par consquent que le mcanisme de couplage acoustique, qui crot quand les frquences de rsonance des deux tubes deviennent proches, explique la thorie quantique. Des voyelles ayant une paire ou des paires de formants proches sont parfois appeles voyelles focales (Badin & al., 1990). Les nomogrammes de Fant dcrits dans le paragraphe suivant montrent une telle focalisation des formants qui peuvent correspondre des voyelles relles. Il semble que les caractristiques quantiques apparaissant dans la relation articulatoireacoustique influencent la formation des systmes vocaliques. Cette ide est utilise dans la prdiction des systmes en fonction du nombre de voyelles (Schwartz & al., 1989).

Figure 8. Modle quatre tubes de Fant (1960) et nomogrammes correspondants.

3.4. Le modle de Fant : les nomogrammes A partir de lobservation des coupes sagittales obtenues par rayons X lors de la production de voyelles, Fant (1960) a propos un modle simplifi de la fonction daire du conduit vocal. Cest un modle quatre tubes reprsentant successivement : la cavit du pharynx, la constriction ralise par la langue, la cavit buccale et louverture aux lvres (Figure 8a). Sachant que les fonctions daire relatives aux voyelles se diffrencient, en particulier, par louverture aux lvres, le degr et la position de la constriction, Fant a tabli des nomogrammes reprsentatifs du comportement du modle lors dun dplacement de la constriction davant en arrire du tube pour diffrents degrs de constriction et douverture aux lvres. Ces nomogrammes donnent lvolution des frquences des cinq premiers formants du modle au cours de la variation dun paramtre du modle. La figure 8b reprsente les nomogrammes obtenus partir du modle de la figure 8a, pour 5 degrs douverture aux lvres (courbe 1= 8, 2= 4, 3= 2, 4= 0.65, 5= 0.16 cm2) et pour un degr de constriction de 0,65 cm2. De ces nomogrammes, on peut mieux comprendre les volutions des formants pour une variation de tel ou tel paramtre. Par exemple, le premier formant passe par un maximum pour x (distance de la constriction la source vocale) gal 2.5 cm. Ces passages par des maxima ou minima correspondent des situations quantiques au sens de Stevens. On peut dterminer les plages de variation des formants.
F1 crot F2 crot

10 8 6 4 2 0 0

A(x)

10 8 6 4 cm 10 20 2 0 0

A(x)

cm 10 20

.
F1 dcrot 10 8 6 4 2 0 0 10 20 cm F2 dcrot 10 8 6 4 2 0 0 10 20 cm

Les angles du "triangle vocalique" obtenus 3000 2000 /a/ 1000 /u/ 0 0 500 1000 F1(Hz) F2(Hz) /i/

Figure 9. Dformation de la fonction d'aire pour un accroissement et une diminution de F1.et de F2. Reprsentation des trajectoires formantiques dans le plan F1-F2. On a fix 2 cm2 les sections d'une cavit cot source de 3 cm de longueur.

3.5. Modlisation bas sur le concept du maximum de variation des frquences de formants La modlisation prcdente simplifie, de manire raisonnable, les formes gomtriques originellement complexes du conduit vocal. Nous dcrivons ici une approche compltement

diffrente o la motivation est de construire un modle qui nous permet de contrler les frquences de formants de la faon la plus efficace. On suppose que les tches de production parle sont acoustiques et conduisent rechercher un contraste acoustique maximal entre les lments du code. On utilise la fonction de sensibilit pour dformer progressivement un tube de forme originale quelconque dans le but daugmenter ou de diminuer la frquence dun formant. La figure 9 montre la dformation obtenue pour une augmentation ou une diminution des frquences de chacun des deux premiers formants ainsi que les volutions correspondantes des formants dans le plan F1-F2 (F1 crot et va vers /a/, F1 dcrot et va vers /y/, F2 crot et va vers /i/, F2 dcrot et va vers /u/). On retrouve ainsi les angles du triangle vocalique (Carr & al., 1995). La commande du premier formant entrane une division du tube en deux rgions, la commande du deuxime formant 4 rgions de longueurs non gales. La dformation est antisymtrique: une constriction avant correspond une cavit arrire et rciproquement. Des cavits pharyngale et buccale apparassent ainsi automatiquement. On remarque que cette procdure permet de retrouver le modle en rgions distinctives (Mrayati & al., 1988).
4. Coarticulation et rduction Fant (1973) a bien montr quil existe un chevauchement important de caractristiques propres aux phonmes (figure 10). On sait que lon ne peut raliser de synthses intelligibles avec une succession de phonmes pralablement enregistrs. De nombreuses tudes ont mis en vidence des phnomnes danticipation comme lanticipation labiale ou bien de mmoire deffets passs. Par ailleurs, les caractristiques acoustiques du /d/ de /da/ diffrent de celles du /d/ de /di/ par exemple (Delattre & al., 1955). De plus, hman (1966) a montr que, dans des productions V1CV2, la transition V1C dpend de V2, de mme que CV2 dpend de V1. hman a propos une thorie de superposition de ralisation consonantique sur un continuum vocalique pour expliquer ces phnomnes (voir figure 11). En fait, une thorie de coproduction syllabique comme celle propose par Kojevnikov & Chistovich (1965) permet dexpliquer les rsultats dhman.

Figure 10. Schmatique reprsentation dlments squenciels de parole. a) est laspect phonmique, b) et c) reprsentent les aspects acoustiques, et d) montre le degr de corrlation son-phonme (Fant, 1973)

V1 V2

V1 C

V2

C (a) (b)

Figure 11. Superposition (b) dun geste consonantique sur une transition voyelle-voyelle (a).

La rduction vocalique ou consonantique est aussi un phnomne qui ne simplifie pas la recherche dinvariance dans le signal de parole. Dans ce cas, cause des caractristiques mcaniques de lappareil vocal, dans certains contextes et pour des dbits de production levs, des cibles ne sont pas atteintes. Cest le cas pour les voyelles (Lindblom, 1963) ou aussi pour les consonnes. Malgr ces changements de caractristiques acoustiques, le rsultat perceptif nest pas modifi.

Rfrences T. Baer, J.C. Gore, L.C. Gracco, & P.W. Nye (1991), "Analysis of vocal tract shape and dimensions using magnetic resonance imaging: Vowels", Journal of the Acoustical Society of America, Vol. 90, pp. 799-828. P. Badin, P. Perrier, L-J. Bo, & C. Abry (1990), "Vocalic Nomograms: Acoustic and articulatory considerations upon formant convergences", Journal of the Acoustical Society of America, Vol. 78, pp. 1290-1300. L-J. Bo (1973), "Etude acoustique de couplage larynx-conduit vocal", Revue d'Acoustique, Vol. 27, pp. 235-244. Calliope (1989), La parole et son traitement automatique, (Masson, Paris). R. Carr, B. Lindblom, & P. MacNeilage (1955) "Rle de l'acoustique dans l'volution du conduit vocal humain", C. R. Acad. Sci. Paris, t. 320, Srie II b, pp. 471-476. F. Charpentier (1986), "Fonctions de sensibilit d'un modle dissipatif du conduit vocal", Bulletin de l'Institut de Phontique de Grenoble, Vol.15, pp. 1-33. T. Chiba & M Kajiyama (1941), The vowel : Its nature and structure (Tokyo-Kaisekikan Publishing Co. Ltd.). C. H. Coker (1976), "A model of articulatory dynamics and control", Proceedings of IEEE, Vol. 64, N 64, pp. 452-460. P. Delattre, A.M. Liberman, F.S. Cooper (1955), "Acoustic loci and transitional cues for consonants", Journal of Acoustical Society of America, Vol. 27, pp. 42-46. P.B. Denes et E.N. Pinson (1963), The speech chain : The physics and biology of spoken language (Anchor Press). G. Fant (1960), Acoustic theory of Speech Production (Mouton & Co.). G. Fant (1973), Speech sounds and features (The MIT Press, Cambridge)

G. Fant, J. Liljencrants & Q. Lin (1985), "A four-parameter model of glottal flow", STL-QPSR (Speech Transmission Laboratory, Royal Institute of Technology, Stockholm), Vol. 4, pp. 1-13. J.L. Flanagan (1972; 1st ed. 1965), Speech analysis, synthesis, and perception, (SpringerVerlag). O. Fujimura (1962), "Analysis of nasal consonants", Journal of the Acoustical Society of America, Vol. 34, pp. 1865-1857. K. Ishizaka & J.L. Flanagan (1972), "Synthesis of voiced sounds from two-mass model of the vocal cords", Bell System Technical Journal, Vol. 51, pp. 1233-1268. J.L. Kelly & C.C. Lochbaum (1962), "Speech synthesis," International Congress of Acoustics, Vol. 4, page G42. V.A.Kozhevnikov & L.A. Chistovich (1965) Speech, articulation, and perception, NTIS, US Dept. of Commerce, JPRS-30543. U.K. Laine (1982), "Modelling of lip radiation impedance in the z-domain", IEEE, Proceeding of ICASSP. J. Liljencrants (1985), Speech synthesis with a reflection-type line analog, Ph.D. dissertation, Royal Institute of Technology, Stockholm. B. Lindblom (1963), "Spectrographic study vowel reduction", Journal of the Acoustical Society of America, Vol. 35, pp. 1773-1781. I. Maddieson (1991), "Testing the universality of phonological generalizations with a phonetically specified segment database: Results and limitations", Phonetica, Vol. 48, pp. 193-206. S. Maeda (1982), "A digital simulation method of the vocal-tract system", Speech Communication, Vol. 1, 199-229. S. Maeda (1990), "Compensatory articulation during speech: Evidence from the analysis and synthesis of vocal-tract shapes using an articulatory model", in Speech Production and Speech Modelling, W.J. Hardcastle & A. Marchal, eds., (Kluwer Academic Publisher), pp. 131-149. S. Maeda & K. Honda (1994), "From EMG to formant patterns of vowels: The implication of vowels spaces", Phonetica, Vol. 51, 17 -29. R. Majid (1986), Modlisation articulatoire du conduit vocal, exploration et exploitation : Fonctions de macro-sensibilit paramtriques et voyelles du franais, Thse Doctrat d'Ingnieur, INP Grenoble. J.D. Markel & A.H. Grey (1976), Linear prediction of speech, (Springer-Verlag, New York). M. Mrayati & R. Carr (1976), "Relation entre la forme du conduit vocal et les caractristiques acoustiques des voyelles franaise", Phonetica, Vol. 33, pp. 285-306. M. Mrayati, R. Carr, & B. Gurin (1988), "Distinctive Region and Modes: a new theory of Speech Production", Speech Communication, Vol. 7, pp. 257-286. S.E.G. hman (1966), "Coarticulation in VCV utterances: Spectrographic measurements", Journal of the Acoustical Society of America, Vol. 40, pp. 979-988. G.E. Perterson & H.L. Barney (1952), "Control methods used in a study of the vowels", Journal of the Acoustical Society of America, Vol. 24, pp. 175-184. L.R. Rabiner & R.W. Schafer (1978), Digital processing of speech signals, (Prentice-Hall Inc. London). M.R. Schroeder (1967), "Determination of the geometry of the human vocal tract by acoustic measurements", Journal of the Acoustical Society of America, Vol. 41, N 4, pp. 10021010. J-L. Schwartz, L-J. Bo, P. Perrier, B. Gurin, & P. Escudier (1989), "Perceptuel contrast and stability in vowel systems: A 3-D simulation study", Eurospeech, Paris, Vol. 1, pp. 63-66.

C. Shadle (1990), "Articulatory-acoustic relationships in fricative consonants", in Speech Production and Speech Modelling (W.J. Hardcastle & A. Marchal, eds. Kluwer Academic Publisher), pp. 187-209. M.M. Sondhi & J. Schroeter (1987), "A hybrid time-frequency domain articulatory speech synthesizer", IEEE, Transactions on Acoustics, Speech, and Signal Processing, Vol. ASSP-35, N. 7, pp. 955-967. K.N. Stevens & A.S. House (1955), "Development of a quantitative description of vowel articulation", Journal of the Acoustical Society of America, Vol. 27, pp. 484-493. K.N. Stevens (1971) "Airflow and turbulence noise for fricative and stop consonants: Static considerations", Journal of the Acoustical Society of America, Vol. 50, 1180-1192. K.N. Stevens (1972), "The quantal nature of speech: Evidence from articulatory-acoustic data", in Human communication: A unified view, E.E. David Jr., P. B. Denes, eds., (McGraw-Hill Book Co.), pp. 51-66. K.N. Stevens (1989), "On the quantal nature of speech", Journal of Phonetics, Vol. 27, pp. 345. H.W. Strube (1982), "Time-varying wave digital filters for modeling analog systems", IEEE, Transactions on Acoustics, Speech, and Signal Processing, Vol. ASSP-30, N 6, pp. 864868. H. Wakita & G. Fant (1978) "Toward better vocal-tract model", STL-QPSR (Speech Transmission Laboratory, Royal Institute of Technology, Stockholm), Vol. 1, pp. 9-29.