Académique Documents
Professionnel Documents
Culture Documents
Mathieu AVANZI
Note de recherche sur l’accentuation et le
phrasé prosodique à la lumière des corpus de
français ----------------------------------------------------------- 5-24
Ingrid HOVE
Prosodic differences between Germans and
German-speaking Swiss in L2 ------------------------------------ 57-70
Sandra SCHWAB
Apprenants hispanophones de FLE et
accentuation en français ----------------------------------------- 71-86
Responsables de la revue
Gilles Corminboeuf email: gilles.corminboeuf@unine.ch
Evelyne Pochon-Berger email: evelyne.pochon@unine.ch
Secrétariat de rédaction
Florence Waelchli, Revue Tranel, Institut des sciences du langage et de la
communication, Université de Neuchâtel, Espace Louis-Agassiz 1, CH-2000 Neuchâtel
Les anciens numéros sont également en accès libre (archive ouverte / open access) dans
la bibliothèque numérique suisse romande Rero doc. Voir rubrique "Revues":
http://doc.rero.ch/collection/JOURNAL?In=fr
Abonnements
Toute demande d'abonnement ou de numéro séparé est à adresser à:
Revue Tranel, Université de Neuchâtel, Espace Louis-Agassiz 1, CH-2000 Neuchâtel
Tél.: ++41(0)32 718 16 90
Fax: ++41(0)32 718 17 01 email: revue.tranel@unine.ch
Tarifs
Abonnement annuel (2 numéros) Suisse: CHF 51.00 Etranger: € 34.80
Numéro séparé Suisse: CHF 27.00 Etranger: € 18.40
Numéro double Suisse: CHF 40.00 Etranger: € 27.30
Paiement
Suisse: CCP 20-4130-2 – Université, Fonds de tiers, 2000 Neuchâtel (réf: U.00695)
Etranger: Compte en EUR: 290 00500.080.60L auprès d'UBS SA, 2000 Neuchâtel (CH)
[Code Swift: UBSWCHZH80A] [IBAN: CH49 0029 0290 5000 8060 L]
© Institut des sciences du langage et de la communication, Université de Neuchâtel, 2013
Tous droits réservés
ISSN 1010-1705
Travaux neuchâtelois de linguistique, 2013, 59, 1-4
Avant-propos
1
Comme le définit Meuwly (2001: avant-propos), les sciences forensiques constituent
"l'ensemble des principes scientifiques et des méthodes techniques appliquées à
l'investigation criminelle, pour prouver l'existence d'un crime et aider la justice à déterminer
l'identité de l'auteur et son mode opératoire".
2 Avant-propos
Bibilographie
Andreassen, H., N., Racine, I., Maître R. (2010): La Suisse. In S. Detey, J. Durand, B. Laks. & C.
Lyche (éds), Les variétés du français parlé dans l’espace francophone. Paris (Editions
Ophrys).
Avanzi, M., Schwab, S., Dubosson, P. & Goldman, J.-P. (2012): La prosodie de quelques variétés de
français parlées en Suisse romande. In A. C. Simon (éd.), La variation prosodique régionale
en français. Bruxelles (De Boeck/ Duculot), 89-118.
Fleischer, J., Schmid, S. (2006): Zurich German. Journal of the International Phonetics Association,
36 (2): 243-253.
Grosjean, F., Carrard, S., Godio, C., Grosjean, L. & Dommergues, J. Y. (2007): Long and short vowels
in Swiss French: their production and perception. French Language Studies, 17, 1-19.
Haas, W. (2000): Die deutschsprachige Schweiz. In H. Bickel & R. Schläper, R. (Hg.), Die
viersprachige Schweiz. Aarau / Frankfurt a. M. / Salzburg (Sauerländer, Sprachlandschaft
25), 57-138.
Häsler, K., Hove, I., Siebenhaar, B. (2005): Die Prosodie des Schweizerdeutschen –Erkenntnisse
aus der sprachsynthetischen Modellierung von Dialekten. Linguistik online, 24, 187-224.
Knecht P. & Rubatttel, C. (1984): A propos de la dimension sociolinguistique du français en Suisse
romande. Le Français moderne, 52, 138-150.
Knecht, P. (1979): Le français en Suisse romande: aspects linguistiques et sociolinguistiques. In A.
Valdman (éd.), Le français hors de France. Paris (Honoré Champion), 249-258.
Kolly, M.-J. (2010): Regionale Spuren in “Français fédéral” und “Schweizerhochdeutsch”. Eine
Untersuchung im Schnittfeld von Akzent und Einstellung bei Schweizer Dialektsprechern.
Travail de master, Université de Berne.
Leemann, A. (2012): Swiss German Intonation Patterns. Studies in Language Variation vol. 10,
Amsterdam / Philadelphia (Benjamins).
Métral, J.-P. (1977): Le vocalisme du français en Suisse romande. Considérations phonologiques.
Cahiers Ferdinand de Saussure, 31, 145-176.
Meuwly, D. (2001): Reconnaissance de locuteurs en sciences forensiques: l'apport d'une approche
automatique. Thèse de doctorat, Université de Lausanne, Suisse
Miller, J. S. (2007): Swiss French prosody. Intonation, rate and speaking style in the Vaud Canton.
Thèse de doctorat, University of Illinois at Urbana-Champaign.
Schwab, S. & Racine, I. (2012): Le débit lent des Suisses romands: mythe ou réalité? Journal of
French Language Studies, 22, 1-15.
Siebenhaar, B. (2004): Sprachsynthese als Methode für die Dialektologie. In Linzerschnitten.
Beiträge zur 8. Bayerisch-österreichischen Dialektologentagung, ed. Stephan Gaisbauer and
Hermann Scheuringer, 245–252. Linz (Adalbert-Stifter-Institut des Landes Oberösterreich).
Siebenhaar, B., Forst, M., Keller E. (2004): Prosody of Bernese and Zurich German. What the
development of a dialectal speech synthesis system tells us about it. Regional Variation in
Intonation (Linguistische Arbeiten 492), ed. Peter Gilles and Jörg Peters, 219–238. Tübingen
(Niemeyer).
Trouvain, J. & Gut, U. (Eds.) (2007): Non-Native Prosody. Phonetic Description and Teaching
Practice. Berlin/New York (Mouton de Gruyter).
Woehrling, C., Boula de Mareüil, P. & Adda-Decker, M. (2008): Aspects prosodiques du français
parlé en Alsace, Belgique et Suisse. Actes des XXVIIè Journées d’Etudes de la Parole,
Avignon, France, 9-13 juin 2008, 1586-1589.
Travaux neuchâtelois de linguistique, 2013, 59, 5-24
Mathieu AVANZI
ISLC, Université de Neuchâtel
In this paper the main rules for stress assignment in French, the constraints relative
to the formation of minor prosodic units (Accentual Phrases) and major prosodic units
(Intonational Phrases, IP) are first recalled. A procedure developed in order to
annotate semi-automatically these phenomena in different French corpora is then
described. Finally the results of two studies are presented. The first one is conducted
on a 4-hour long corpus (designed for the statistical study of regional variation in
Swiss French). It aims at testing the robustness of two phonological rules implicated
in the formation of Accentual Phrase in French (deaccentuation of pre-nominal
adjectives (a sequel to the Align-XHead constraint), accentual clash avoidance rule).
The second summarizes the main results obtained in the author’s PhD thesis (Avanzi,
2012). It is conducted on a set of data containing approximately 800 dislocated-
sentences. It questions the weight of syntactic and information structure cues in front
of prosodic structure cues in order to identify Intonational Phrase boundaries.
1. Introduction
Jusqu’à il y a peu, l’annotation prosodique des corpus en français a
demeuré relativement rudimentaire et approximative, les spécialistes de
l’oral se contentant de noter les événements prosodiques perçus à l’aide
d’un jeu de symboles réduits, qui ne rendent pas toujours bien compte de la
complexité des phénomènes acoustiques activés par les sujets parlants
lors de l’énonciation de leurs structures syntaxiques. Parallèlement, les
spécialistes de prosodie ont mis au point, de leurs côtés, des modèles
d’analyse bien souvent inaccessibles au néophyte tant le caractère
extrêmement contrôlé des données prises en compte les situent "à des
années lumière de la parole spontanée" (Lacheret-Dujour, 2003: 4).
Depuis une dizaine d’années toutefois, les progrès en informatique d’une
part, l’intérêt grandissant pour les études d’interface d’autre part, ont
permis que la situation change (Lacheret-Dujour, 2007a; Avanzi & Delais-
Roussarie, 2011; Lacheret-Dujour et al., à par.). Si bien qu’aujourd’hui, de
nombreux protocoles et outils pour l’annotation (semi-)automatique de la
prosodie sont disponibles. Le but de cet article n’est pas d’en faire
l’inventaire1, mais de présenter une procédure basée sur la perception et
assistée informatiquement en vue de transcrire l’accentuation (calcul de la
1
Voir à ce sujet les contributions d’Avanzi et al. (2007) et de Delais-Roussarie & Yoo (2011).
6 Note de recherche sur l’accentuation et le phrasé prosodique
2. Rappels
2
Cf. Selkirk (1978, 1984); Verluyten (1982); Nespor & Vogel (1986); Delais-Roussarie (1995,
2005); Post (2000, 2011); Delais-Roussarie et al. (2011).
3
C’est pour cette raison qu’il est souvent appelé "accent final".
Mathieu AVANZI 7
4
En espagnol par exemple, c’est la place de l’accent tonique dans le mot qui permet de
distinguer, pour certains verbes, les personnes, temps et modes. Ainsi, les formes [kanto] ou
[kante] signifient "je chante" et "que je chante" lorsque la première syllabe est accentuée
[»kanto]/[»kante]; "il chanta" et "je chantais" lorsque la seconde syllabe est accentuée
[kan»to]/[kan»te].
5
L’analyse de cet exemple est détaillée infra, cf. (10) infra.
8 Note de recherche sur l’accentuation et le phrasé prosodique
6
Dans la littérature, la terminologie abonde pour nommer une telle unité: mot prosodique,
syntagme phonologique, syntagme accentuel, groupe rythmique, groupe intonatif, etc.
(Lacheret-Dujour & Beaugendre, 1999).
7
Cf. Fougeron & Jun (1998) et Post (2011).
8
D’autres principes entrent également en ligne de compte. Ainsi, le principe d’eurythmie
(Dell, 1984 ; Martin, 1987; Delais-Roussarie, 1996), qui stipule que dans une séquence
donnée, les GA tendent à être de même longueur, peuvent expliquer certains phénomènes
de non-accentuation en français. Le nombre de syllabes non-accentuées est également
contraint (d’après Delais-Roussarie (1996), les groupes de plus trois syllabes sont rares,
selon Martin (1987), la taille maximale d’une suite de syllabes non-accentuées est de 7).
Nous ne présentons pas plus en détails ici ces principes.
Mathieu AVANZI 9
Align-XHead
Dans la Théorie Prosodique, on part de l’hypothèse que les bords droits des
unités prosodiques que nous avons nommées GA s’alignent sur des
frontières droites de constituants syntaxiques X’ (Verluyten, 1982; Selkirk,
1984; Nespor & Vogel, 1986; Delais-Roussarie, 1996; Post, 2000). Appliquée
au français, cette contrainte d’alignement entre structure prosodique et
structure syntaxique, connue sous le nom d’Align-XHead, stipule, entre
autres, qu’un adjectif antéposé à un nom lexical ne génère pas d’accent
primaire (nonobstant son statut de morphème lexical) parce qu’il est
dominé par le même nœud que ce dernier dans la représentation
syntaxique.
Considérons l’exemple (9) pour mieux comprendre de quoi il s’agit. D’après
la segmentation en GC, on prédit que le syntagme sera produit en deux GA,
comme l’illustre (a). L’application de la règle Align-XHead commande
cependant que l’adjectif ne soit pas accentué, et donc que l’ensemble ne
forme qu’un seul et unique GA, comme l’illustre (b):
(9) (les jolis)GC (pantalons)GC
(a) [leZo»li]GA [pA)ta»lç)]GA
(b) [leZolipA)ta»lç)]GA
*Clash
Le second principe est connu sous le nom de *Clash (que l’on traduit en
français par "non-collision accentuelle", cf. Verluyten (1982); Selkirk
(1984); Dell (1984); Nespor & Vogel (1986); Delais-Roussarie (1996); Post
(2000)). Il stipule que deux syllabes adjacentes ne peuvent pas être toutes
deux assorties d’un accent primaire. Dans le SN (10), l’adjectif constitue un
GC indépendant du nom qu’il suit, et devrait donc générer un accent en
cette vertu (a). Cependant, pour respecter l’équilibre métrique entre
syllabes fortes et syllabes faibles, la règle *Clash prédit que le premier GC
ne génère pas d’accent final, et qu’on observera préférentiellement le
découpage proposé en (b) ou en (c):
(10) (la voiture)GC (noire)GC
(a) [lavwa»ty“]GA [»nwa“]GA
(b) [lavwaty“»nwa“]GA
(c) [la«vwaty“»nwa“]GA
Noter que ces deux principes ne sont ni exclusifs ni contradictoires,
puisque dans des exemples tels que (11), où un adjectif précède un lexème
monosyllabique, l’un comme l’autre principe prédit la non-accentuation du
premier terme:
(11) (un beau)GC (chat)GC >> [ø‚bo»Sa]GA
10 Note de recherche sur l’accentuation et le phrasé prosodique
9
Cette hypothèse du GA comme domaine de réalisation des sandhis doit être appréhendée
prudemment. À la lumière de résultats obtenus à partir de l’examen de corpus de parole
continue (discours politiques, parole radiophonique), Fougeron & Delais-Roussarie (2004) et
Sterling-Miller & Fagyal (2005) remettent en cause l’idée selon laquelle la réalisation des
phénomènes de sandhis serait systématiquement contrainte par le phrasé en GA.
Mathieu AVANZI 11
2.4 Synthèse
10
Sur ce point, cf. Ladd (2008) et Portes & Bertrand (2011).
12 Note de recherche sur l’accentuation et le phrasé prosodique
3. Propositions d’annotation
3.1 Proéminences
Fig. 1: Copie d’écran Praat. Transcription et codage d’un énoncé de parole spontanée, "maintenant –
euh le celui qu’y avait derrière l’ordinateur", prononcé par un locuteur genevois âgé de 55 ans. Avec, de
haut en bas les tires de segmentation en phonèmes, en syllabes, les tires d’annotation des
proéminences des deux premiers experts (les syllabes perçues comme proéminentes sont codées "p"
ou "P"12, les syllabes associées à une disfluence sont codées "H"), la tire qui affiche les divergences
entre les deux premiers codeurs et la tire de référence corrigée par le troisième expert, tire de
segmentation en mots graphiques et en énoncés.
12
La distinction entre "p" (proéminence faible) et "P" (proéminence forte) a une valeur
heuristique: elle force les codeurs à procéder à une écoute plus fine. Dans la tire de codage
finale, les syllabes "p" et "P" sont traitées comme un seul et même événement, cf. Avanzi et
al. (2007).
13
Dans les diverses expériences que nous avons menées, nous avons établi que le taux
d’accord, exprimé en termes de "kappa score" entre deux experts entraînés pouvait varier
entre 0.6 et 0.8. Pour une discussion des taux d’accord entre annotateurs, cf. Avanzi (2012 :
70).
14 Note de recherche sur l’accentuation et le phrasé prosodique
Fig. 2: Copie d’écran Praat. Transcription et codage du même extrait que celui de la Fig. 1. Avec, de haut
en bas les tires de segmentation en phonèmes, en syllabes, tires d’annotation des proéminences, des
GC et des GA, tires de segmentation en mots graphiques et en énoncés.
Or, si dans la majorité des cas le découpage d’un texte en GC ne pose pas
de problème, comme c’est le cas ci-dessus, il y a des contextes dans
lesquels l’identification des GC n’est pas évidente (§3.2.1.) et d’autres où la
mise en rapport du des GC avec la tire d’annotation des proéminences pose
des problèmes théoriques (§3.2.2.). Quant aux disfluences, des questions
se posent quant à leur statut prosodique (§3.3.3.)
3.2.1. Le découpage d’une séquence donnée en GC nécessite de faire la
part entre les morphèmes lexicaux et les morphèmes grammaticaux. Or,
une telle classification n’est pas toujours facile à effectuer. En effet, selon
les grammaires, les conjonctions et les adverbes, qui entrent dans des
paradigmes "fermés", sont à classer dans la catégorie des morphèmes
grammaticaux, ils ne génèrent donc pas d’accents primaires:
(19) or, un gros détachement de police
(20) jusqu’ici, les seuls titres de gloire de Beaulieu
Les syllabes accentuées soulignées dans les exemples ci-dessus
marquent-elles le bord droit d’un GA ou constituent-elles des accents
secondaires ? Dans les contextes où elles sont prononcées, elles sont
souvent suivies de pauses silencieuses, qui constituent en français des
indices de fins de groupe relativement sûrs. Partant, nous avons choisi,
dans nos codages de les considérer comme des bornes de GC14.
L’identification des GC nécessite également que l’on sache quel statut
accorder aux lexies semi-figées ci-dessous. Les syntagmes ci-dessous
doivent-ils être analysés comme composés de plusieurs mots lexicaux,
14
Pour une discussion, voir Goldman et al. (2010). Mertens (2004) dresse l’inventaire des mots
accentuables et des mots non accentuables.
Mathieu AVANZI 15
Fig. 3: Copie d’écran Praat. Transcription et codage de la phrase "le premier ministre a en effet décidé
de faire étape – dans cette commune – au cours de sa tournée de la région en fin d’année", prononcée
par une locutrice genevoise de 21 ans. Avec, de haut en bas les tires de segmentation en phonèmes, en
syllabes, tires d’annotation des proéminences, catégorisation des forces de proéminence par Analor,
tires de segmentation en AP, IP, mots graphiques et en énoncés.
Mathieu AVANZI 17
3.4 Synthèse
La procédure de transcription que nous proposons peut être résumée en
trois étapes. Dans un premier temps, sur la base d’un corpus transcrit et
aligné minimalement en syllabes, les proéminences accentuelles sont
identifiées sur des bases perceptives. Croisée avec une segmentation du
texte en GC, l’identification des proéminences finales de groupe permet
d’identifier des GA. La catégorisation des proéminences selon leur force
dans le logiciel Analor permet enfin de mettre au jour les frontières
prosodiques associées à une frontière prosodique majeure et donc
d’identifier les SI.
4. Premiers résultats
codé dans une tire spécifique les sites où la contrainte Align-XHead (qui
stipule qu’un adjectif en position pré-nominale ne génère pas d’accent
primaire17) et la contrainte *Clash18 (qui stipule que deux accents primaires
ne peuvent pas être consécutifs, cf. supra (10)-(14) pour des exemples)
étaient censées s’appliquer. Nous avons ensuite croisé ces codages avec
les informations de la tire "prom"19 et calculé le nombre de fois où la règle
était respectée.
4.1.2. Le texte lu par les 40 locuteurs de notre corpus contient 8 SN ayant
la structure [dét + adj + N], soit 320 sites au total. Dans la partie spontanée
du corpus, on dénombre 124 de ces sites. Dans la parole lue, on constate
que la règle est violée 261/320 fois (81.5%); dans la parole spontanée, la
règle est violée 80/124 fois (66.6%). Des tests statistiques montrent qu’il
n’y a pas d’effets de région (χ2 (4, n = 443) = 0.339, n.s.): les locuteurs
accentuent et désaccentuent les adjectifs préposés dans la même
proportion, qu’ils soient originaires d’une des 4 villes de Suisse romande ou
de Paris. On observe en revanche un effet du genre de parole (χ2 (1, n =
437) = p < 0.001): la contrainte est davantage respectée dans les
conversations qu’en lecture.
4.1.3. Le texte lu par les 40 locuteurs de notre corpus contient 10 sites où
la contrainte *Clash est susceptible de s’appliquer, soit 400 sites au total.
Dans la partie spontanée du corpus, on dénombre 183 sites de clashes
potentiels. Dans la parole lue, la règle est respectée 249/400 fois (62.25%),
dans la parole spontanée, la règle est respectée pour 126/183 des
contextes (68.85%). Comme précédemment, nous n’observons aucun effet
de l’origine des locuteurs (χ2 (4, n = 556) = 0.494, n.s.). Nous n’observons en
revanche pas d’effet du genre de parole: la règle est respectée dans la
même proportion dans les lectures que dans les conversations (χ2 (1, n =
583) = 0.073, n.s.).
4.1.4. Discussion
17
Selon Delais-Roussarie (1996: 101), entrent également sous le couvert de cette règle les
adverbes comme « bien, très, beaucoup, trop ». Nous avons préféré ne pas prendre en
compte ces cas dans les comptages, leur non-accentuation pouvant être due à leur statut
de morphème grammatical (cf. supra, §3.2).
18
Pour plus de prudence, nous avons exclu des comptages les cas où le premier élément du
syntagme pour le site de clash était un verbe auxiliaire (être, avoir) ou semi-auxiliaire (aller,
pouvoir, devoir, falloir, etc., sur ce point cf. Blanche-Benveniste, 2001), dans la mesure où
leur statut de mot lexical générateur d’accent primaire est controversé.
19
Seules les syllabes correspondant aux bords droits des éléments lexicaux impliqués dans
les syntagmes entrant sous le couvert des règles Align-XHead et *Clash ont été considérés.
Nous avons pris le parti de considérer ces syllabes comme potentiellement génératrices
d’accents primaires.
Mathieu AVANZI 19
4.2.4. Discussion
5. Conclusion
Cette note de recherche avait pour principal objectif d’exposer les choix
théoriques et méthodologiques que nous avons retenus pour analyser
l’accentuation et le phrasé prosodique dans une approche basée sur
corpus. Dans un premier temps, nous avons rappelé, les principaux points
qui font consensus quant à l’accentuation du français dans la littérature.
Nous avons ensuite précisé dans les grandes lignes les modalités de
formation de deux constituants principaux de la structure prosodique, le
groupe accentuel (GA) et le syntagme intonatif (SI). Nous avons illustré la
façon dont nous avons procédé pour coder des données de parole en vue
d’analyser un certain nombre de faits en relation avec l’accentuation et le
phrasé. Nous avons enfin présenté les résultats provisoires d’une
recherche menée sur le respect des règles de désaccentuation des
adjectifs pré-nominaux (une séquelle de la règle Align-XHead appliquée à
un contexte particulier) et d’évitement de collision accentuelle (*Clash);
ainsi que les résultats obtenus dans un travail précédent sur le phrasé des
constructions de syntaxe segmentée (dislocations, incises). Les résultats
ont révélé que des règles que l’on pensait robustes ne l’étaient pas
forcément à la lumière des données, et que du travail restait à conduire
pour mieux modéliser les interactions entre les diverses contraintes pesant
sur l’accentuation et le phrasé du français.
22 Note de recherche sur l’accentuation et le phrasé prosodique
Bibliographie
Dell, F. (1984): L’accentuation dans les phrases en français. In Forme sonore du langage: Structure
des représentations en phonologie, Dell, F., Hirst, D. & Vergnaud, J.-R. (éds), 65-122. Paris
(Hermann).
Di Cristo, A. (1999): Vers une modélisation de l’accentuation du français: première partie. Journal
of French Language Studies, 9, 143-179.
— (2010): Regards sur la prosodie du français. Première Partie: Accentuation et Phrasé
prosodique. Manuscrit (Université de Provence).
D'Imperio, M., Bertrand, R., Di Cristo, A. & Portes, C. (2007): Investigating Phrasing Levels in
French: Is there a Difference between Nuclear and Prenuclear Accents? In Camacho, J.,
Deprez, V. Flores, N. & Sanchez, L. Selected Papers from the 36th Linguistic Symposium
on Romance Languages (LSRL). New Brunswick (John Benjamins), 97-110.
Durand, J., Laks, B. & Lyche, C. (2002): La phonologie du français contemporain: usages, variétés
et structure. In Pusch, C. & Raible, W. (éds), Romance Corpus Linguistics - Corpora and
Spoken Language. Tübingen (Gunter Narr Verlag), 93-106.
— (2009): Phonologie, variation et accents du français. Paris (Hermes).
Elordieta, G., Frota, S., Prieto, P. & Vigário, M. (2003): Effects of constituent length and syntactic
branching on intonational phrasing in Ibero-Romance. Proceedings of the 15th ICPHS,
487-490.
Fónagy, Y. (1979): Le français change de visage ? Revue romane, 24, 225-254.
Fouché, P. (1933): La prononciation actuelle du français. Le français moderne, 1, 43-67.
Fougeron, C. & Delais-Roussarie, E. (2004): Fais_en à Fez_en parlant: Étude comparative de la
liaison et de l’enchaînement. Actes des 25èmes JEP, 221-224.
Fougeron, C. & Jun, S.A. (1998): Rate Effects on French Intonation: Prosodic Organization and
Phonetic Realization. Journal of Phonetics, 26, 45-69.
Garde, P. (1968): L'accent. Paris (PUF).
Goldman, J.-P. (2011): EasyAlign: an Automatic Phonetic Alignment Tool under Praat. Proceedings
of Interspeech, 3233–3236.
Goldman, J.-P., Auchlin, A., Roekhaut, S., Simon, A. C. & Avanzi, M. (2010): Prominence Perception
and Accent Detection in French. A Corpus-based Account. Proceedings of Speech Prosody,
non paginé.
Hyman, L. (2006): Word-prosodic typology, Phonology, 23, 225-257.
Jun, S. A. & Fougeron, C. (2002). Realizations of Accentual Phrase in French Intonation. Probus, 14,
147-172.
Lacheret-Dujour, A. (2003): La prosodie des circonstants. Louvain (Peeters).
— (2007a): Prosodie du discours, une interface à multiples facettes. Nouveaux cahiers de
linguistique française, 28, 7-40.
— (2007b): Séquençage et mouvements intonodiscursifs en français parlé. Cahiers de
Praxématique, 48, 183-212.
Lacheret-Dujour, A. & Beaugendre, F. (1999): La prosodie du français. Paris (CNRS-Editions).
Lacheret-Dujour, A., Kahane, S. & Pietrandrea, P. (eds). (to app.): Rhapsodie: a Prosodic and
Syntactic Treebank for Spoken French. New York (John Benjamins).
Lacheret-Dujour, A. & Morel, M. (2011): Modéliser la prosodie pour la synthèse à partir du texte:
perspectives sémantico-pragmatiques. In Neveu, F., Blumenthal, P. & Le Querler, N. (éds),
Au commencement était le verbe. Syntaxe, sémantique et cognition. Mélanges en
l'honneur du Professeur Jacques François. Bern (Peter Lang), 299-326.
Lacheret-Dujour, A. & Simon, A. C. (2013, à par.): Annotation prosodique et bases de données
phonologiques: approche basée sur l’usage. In Durand, J., Kristoffersen, G. & Laks, B.
(éds). La phonologie du français: des normes aux périphéries, Festschrift pour Chantal
Lyche pour ses 65 ans. Paris (Presses Universitaires de Nanterre).
Ladd, R. (2008): Intonational Phonology. Cambridge (Cambridge University Press).
Lyche, C. & Girard, F. (1995): Le mot retrouvé. Lingua, 95, 205-221.
Martin, P. (1987): Prosodic and Rhythmic Structures in French. Linguistics, 25, 925-949.
— (2004): L’intonation de la phrase dans les langues romanes: l’exception du français. Langue
française, 141, 36-55.
Mertens, P. (1989): L’intonation du français. De la description linguistique à la reconnaissance
automatique. Thèse de doctorat (K.U.Leuven).
— (1992): L’accentuation des syllabes contiguës. Institut vor Toegepaste Linguistik, 95/96, 145-
164.
24 Note de recherche sur l’accentuation et le phrasé prosodique
The aim of this study is to examine some prosodic features of a variety of L2 French
commonly called "français fédéral", which is a variety of French spoken by people
who have a Swiss German dialect as L1. We compared the data of 4 groups of 4
speakers: 2 groups of French native speakers (from Neuchâtel in Switzerland and
from Paris) and 2 groups of 4 Swiss German French speakers (from Bern and Zurich
but living in Neuchâtel for at least 20 years). The data were semi-automatically
processed. We examined two prosodic properties: articulation rate and accentuation.
Our findings suggest that: (i) native speakers from Paris articulate faster than native
speakers from Neuchâtel; (ii) non-native speakers articulate as fast as the native
speakers of the corresponding variety; (iii) "français fédéral" shares several features
with a lexical accentuation system rather than with a supra-lexical accentuation
system.
1. Introduction
1
A noter que 9.0% de la population s'exprime dans une autre langue (Lüdi & Werlen, 2005).
2
Pour une présentation de la situation linguistique en Suisse, en particulier concernant le
français à l'intérieur et à l'extérieur de la Suisse romande, voir Manno (2007).
26 La prosodie du "français fédéral"
reste à démontrer. Pour tenter de combler cette lacune, nous avons mené
une étude portant sur deux phénomènes prosodiques: la vitesse
d’articulation et l’accentuation. Nous en présentons ici les résultats.
3
Précisons que les analyses ont porté sur la durée syllabique et non sur le nombre de
syllabes par seconde, celui-ci n'ayant été calculé qu'à des fins de comparaison.
4
Là encore, les analyses ont porté sur la durée syllabique et non sur le nombre de syllabes
par seconde.
28 La prosodie du "français fédéral"
2.2 Corpus
Afin de tester s'il existe des différences de VA (i) entre les locuteurs natifs
de deux régions; (ii) entre les locuteurs du FF et les natifs du français; (iii)
entre différentes variétés de FF, nous avons sélectionné quatre groupes de
4 locuteurs chacun: deux groupes de locuteurs natifs, soit 4 locuteurs
parisiens (désormais PA) et 4 locuteurs de Neuchâtel en Suisse romande
(désormais NE) ; deux groupes de locuteurs du FF, soit 4 locuteurs suisses
alémaniques originaires du canton de Zurich (ci-après ZH) et 4 locuteurs
suisses alémaniques originaires des régions Emmental et Haute-Argovie
dans le canton de Berne (ci-après BE)5. Tous les locuteurs du FF sont
établis à Neuchâtel et environs depuis plus de 20 ans et parlent
quotidiennement le français, qui constitue pour eux une L26.
En vue de limiter l'influence d'autres facteurs sur l'accentuation ou la
vitesse d’articulation, nous avons contrôlé le sexe (2 hommes et 2 femmes
par variété) ainsi que l'âge de nos locuteurs (tous âgés d'au moins 55 ans).
Pour chaque locuteur, nous avons analysé des extraits enregistrés dans
deux conditions: lors de la lecture d’un texte (le texte PFC7) et lors d’une
conversation à dominante monologique (de 180 secondes environ chacun).
5
3 locuteurs zurichois sont originaires de la ville de Zurich, le 4ème est orginaire d’Uster. Les 4
locuteurs bernois sont originaires de Huttwil, Burgdorf, Etzelkofen (Fraubrunnen) et
Bützberg (Langenthal).
6
Les Parisiens et Neuchâtelois sont nés, respectivement, en Île-de-France et à Neuchâtel, où
ils ont passé toute leur vie.
7
La plate-forme Phonologie du Français Contemporain (PFC) met à disposition de la
communauté des données de français parlé dans toute la francophonie; ces données sont
notamment utilisées pour la recherche dans plusieurs domaines (phonétique, phonologie,
syntaxe, pragmatique, sociolinguistique, analyse conversationnelle, etc.). Pour plus
d’informations sur le projet, voir Durand et al. (2002, 2009).
Pauline DUBOSSON, Sandra SCHWAB & Mathieu AVANZI 29
2.3 Résultats
Fig. 1: Durée syllabique en fonction de la variété. Les barres d'erreurs correspondent à l'erreur
standard de la moyenne.
Les tests statistiques montrent un effet du sexe sur la durée syllabique: les
hommes présentent une durée syllabique moyenne significativement plus
courte que les femmes (215.23 ms et 235.23 ms respectivement) (χ2 (1) =
24.14, p < 0.001)9. Autrement dit, la VA des femmes est plus lente que celle
des hommes.
L'influence du sexe n'est toutefois pas similaire dans toutes les
variétés (χ2 (3) = 46.29, p < 0.001): si les hommes ont une durée syllabique
plus courte que les femmes à Paris (p < 0.001), la différence à NE et ZH
n'est pas significative. En outre, bien que l'on observe sur la figure 2 une
8
Pour permettre la comparaison avec les études précédentes, nous fournissons en note les
résultats en syll/sec; il convient toutefois de garder à l’esprit que les analyses ont été
effectuées sur les résultats en ms. La VA, exprimée en syll/sec, est de 5.64 à PA; 4.66 à NE;
4.73 à ZH; 4.42 à BE.
9
Les hommes présentent une VA en syll/sec de 4.92 et les femmes de 4.53.
Pauline DUBOSSON, Sandra SCHWAB & Mathieu AVANZI 31
différence entre les hommes et les femmes bernois elle ne s'avère pas
significative (p = .097); cela est sans doute dû à la grande variabilité chez
les femmes bernoises (cf. barres d'erreur)10.
Fig. 2: Durée syllabique en fonction du sexe et de la variété. Les barres d'erreurs correspondent à
l'erreur standard de la moyenne.
Fig. 3: Durée syllabique en fonction de la tâche. Les barres d'erreurs correspondent à l'erreur
standard de la moyenne.
10
Les résultats obtenus sont de 177.77 ms/syll (5.94 syll/sec) chez les hommes et 212.36
ms/syll (5.27 syll/sec) chez les femmes à Paris; 223.86 ms/syll (4.69 syll/sec) et 232.96
ms/syll (4.52 syll/sec) à Neuchâtel; 241.90 ms/syll (4.46 syll/sec) et 244.41 ms/syll (4.44
syll/sec) à Zurich et 217.40 ms/syll (4.56 syll/sec) et 252.04 ms/syll (4.14 syll/sec) à Berne.
11
La VA, exprimée en syll/sec, est de 4.45 en lecture et 5.15 en conversation.
32 La prosodie du "français fédéral"
Précisons que cette influence est exercée de manière similaire quelle que
soit la variété; il n'y a donc pas d'interaction entre la variété et la tâche.
2.4 Discussion
L'étude de la variabilité de la VA peut porter sur plusieurs aspects. Nous
nous sommes concentrés sur la variété régionale (§ 3.3.1), le sexe (§ 3.3.2),
le style de parole (§ 3.3.3) et la taille du GA (§ 3.3.4). De manière
surprenante, il n'y a pas de différence entre les locuteurs du FF et les natifs
de la variété correspondante (NE): en effet, seuls les Parisiens se
distinguent avec une durée syllabique plus courte que les trois variétés
suisses. Nous interprétons ce résultat comme une possible influence de la
durée d’exposition à la L2. Par ailleurs, les locuteurs du FF se comportent
de manière similaire, qu'ils soient bernois ou zurichois; les différences de
VA observées entre ces deux dialectes (cf. Leemann & Siebenhaar, 2008) ne
semblent donc pas se "transférer" au français.
De même, les locuteurs suisses, qu’ils soient natifs ou non-natifs, se
comportent de façon similaire concernant l'influence du sexe: ce dernier,
malgré un effet global sur l'ensemble des locuteurs, n’exerce pas
d’influence significative dans les variétés suisses. Contrairement à Schwab
& Racine (2012), nous n'obtenons donc pas de différence significative entre
les hommes et les femmes à Neuchâtel; ce résultat s'explique peut-être
par notre corpus, qui n'est constitué que de sujets âgés, contrairement à
celui de Schwab & Racine (2012).
Les trois variétés suisses se comportent aussi de manière similaire au
regard de l'influence du nombre de syllabes dans le GA, dans la mesure où
cet effet, bien que significatif, est plus marqué dans les variétés suisses
qu’à Paris.
En outre, les locuteurs des diverses variétés se comportent de la même
manière concernant l'influence du style de parole: la durée syllabique est
en effet significativement plus courte en conversation qu'en lecture, quelle
que soit la variété. Nos résultats confirment donc ceux de Schwab et al.
(2012a), mais ils s'opposent à la théorie du coût cognitif. Cela peut
s'expliquer par l'âge des locuteurs et la familiarité de la tâche: en effet, la
lecture à haute voix n'est pas une tâche courante, surtout pour des
locuteurs âgés. Rappelons enfin que nous avons exclu les syllabes
disfluentes des analyses: la question de savoir si une analyse du débit,
34 La prosodie du "français fédéral"
avec les hésitations et les pauses, mène à des résultats semblables, reste
ouverte.
3. Etude de l'accentuation
12
Au sujet des transferts, cf. Eckman (1977) et, plus récemment, Bordal (2012).
Pauline DUBOSSON, Sandra SCHWAB & Mathieu AVANZI 35
3.2 Corpus
L’étude de l’accentuation porte sur le même corpus que l’étude de la VA
(cf. § 2.2), à la différence que les analyses n'ont porté que sur la parole lue
et non sur la parole spontanée. Pour le calcul de la densité accentuelle,
nous avons relevé, pour chaque locuteur, le nombre de syllabes
proéminentes et le nombre de syllabes non proéminentes (en excluant les
disfluences) puis nous avons calculé pour chaque variété la densité
accentuelle moyenne, autrement dit le pourcentage de syllabes
proéminentes par rapport au nombre total de syllabes produites. Quant au
calcul du poids métrique, il a été obtenu en comptant le nombre de syllabes
dans chaque GA produit par chacun des locuteurs. Nous avons enfin
calculé une moyenne pour chaque variété.
Nous nous sommes ensuite intéressés à deux règles phonologiques
associées à la bonne formation des groupes prosodiques minimaux. En
français, l'accent n'est pas contraint lexicalement, ce qui signifie que de
nombreux mots lexicaux ne sont pas porteurs d'accent. De tels
phénomènes de non-accentuation ne sont pas dus au hasard. Dans la
littérature (cf. Avanzi ici-même, note 13), deux règles sont considérées
comme particulièrement puissantes pour rendre compte de ces
phénomènes13. La règle Align-XP stipule que dans les syntagmes nominaux
de la forme [dét + adj + N], l'adjectif ne génère pas d'accent primaire
(malgré son statut de morphème lexical) parce qu'il est dominé par le
même nœud que le nom qu'il complète dans la représentation syntaxique.
On prévoit ainsi les découpages ce grand honneur]GA plutôt que *ce grand]GA
honneur]GA. Dans d'autres cas, la non-accentuation d'un élément lexical
peut être motivée par l'existence d'une collision accentuelle potentielle
(No-clash). Ainsi, dans les séquences une journée chaude ou il ne sait pas,
on attend deux accents primaires, un sur la dernière syllabe des mots
lexicaux et un autre sur la dernière syllabe du groupe clitique. Pour éviter la
succession de deux syllabes accentuées contiguës, le premier accent
13
Cf. Avanzi (ici-même).
36 La prosodie du "français fédéral"
3.3 Résultats
14
A noter que ni la différence entre PA et NE ni celle entre ZH et BE n’est significative.
Pauline DUBOSSON, Sandra SCHWAB & Mathieu AVANZI 37
des GA significativement plus petits que les natifs (Wald χ2 (1) = 8.638,
p < .05).
Fig. 7: Poids métrique moyen en fonction de la variété. Les barres d’erreur correspondent à l’erreur
standard de la moyenne.
Nous avons ensuite considéré les règles Align-XP et No-clash. Les tests
statistiques montrent un effet de la variété sur le respect de la règle Align-
XP (χ2 (3, n = 160) = 29.396, p < .001): les Parisiens et les Neuchâtelois
(groupés ensemble) respectent davantage Align-XP (dans 45% et 40% des
cas respectivement, différence non significative) que les Zurichois et les
Bernois (groupés ensemble) (10% et 2.5% respectivement, différence non
significative) (χ2 (1, n = 170) = 23.814, p < .001), ce qu'illustre la figure 8.
3.4 Discussion
Les résultats obtenus montrent que les locuteurs du FF se comportent
différemment des locuteurs natifs du français en regard de l'accentuation.
Le nombre de proéminences accentuelles chez les non-natifs est plus élevé
que chez les natifs, ce qui peut être interprété comme une influence de la
L1 des locuteurs du FF: Barquero (2012) montre également que les
apprenants espagnols rencontrent en français des difficultés à produire
des mots lexicaux sans accent. En ce qui concerne le poids métrique des
GA, nous avons constaté des différences entre le FF et les variétés natives,
mais aussi entre les deux variétés de FF: les locuteurs BE produisent des
GA plus petits que les locuteurs ZH, résultat pour lequel nous n’avons pas
d’explication à ce jour et qui mérite d’être approfondi dans une étude
ultérieure. Enfin, concernant Align-XP et No-clash, notre étude montre que
les non-natifs ne respectent pas ces deux règles dans la même proportion
que les natifs, ce qui atteste que les locuteurs du FF n'ont pas acquis les
subtilités de l'accentuation du français.
4. Conclusion
Bibliographie
Eckman, F. (1977): Markedness and the Contrastive Analysis Hypothesis. In Ioup, G. & Weinberger,
S.H. (éds), Interlanguage Phonology: The Acquisition of a Second Language Sound system.
Cambridge (Newbury House), 55-69.
Fougeron, C. & Jun, S. A. (1998): Rate Effects on French Intonation: Prosodic Organization and
Phonetic Realization. Journal of Phonetics, 26, 45-69.
Garde, P. (1968): L'accent. Paris (Presses universitaires de France).
Goldman, J.-P. (2011): EasyAlign: an Automatic Phonetic Alignment Tool under Praat. Proceedings
of Interspeech, 3233-3236.
Goldman, J.-P., & Simon, A. C. (2007): La variation prosodique régionale (Liège, Vaud, Tournai,
Lyon). Description outillée. Communication au colloque PFC.
Grosjean, F, & Deschamps, A. (1975): Analyse contrastive des variables temporelles de l'anglais et
du français: vitesse de parole et variables composantes, phénomènes d'hésitation.
Phonetica, 31, 144-184.
Grosjean, F., Carrard, S., Godio, C., Grosjean, L. & Dommergues, J. Y. (2003): Long and short vowels
in Swiss French: their production and perception. French Language Studies, 17, 1-19.
Haas, W. (2000). Die deutschsprachige Schweiz. In Bickel, H. & Schläper, R. (éds), Die
viersprachige Schweiz. Aarau / Frankfurt a. M. / Salzburg (Sauerländer), Sprachlandschaft
25, 57-138 (première édition en 1982).
Hyman, L. M. (2006): Word-prosodic typology. Phonology, 23, 225-257.
Jacewicza, E. & Fox, R. A. (2010): Between-speaker and within-speaker variation in speech tempo
of American English. Journal of the Acoustical Society of America 128, 2, 839-850.
Knecht, P. & Rubattel, C. (1984): A propos de la dimension sociolinguistique du français en Suisse
romande. Le Français moderne, 52, 138-150.
Knecht, P. (1979): Le français en Suisse romande: aspects linguistiques et sociolinguistiques. In
Valdman, A. (éd.), Le français hors de France. Paris (Honoré Champion), 249-258.
Kolly, M.-J. (2010): Regionale Spuren in Français fédéral und Schweizerhochdeutsch. Eine
Untersuchung im Schnittfeld von Akzent und Einstellung bei Schweizer Dialektsprechern.
Masterarbeit (Universität Bern).
Leemann, A., & Siebenhaar, B. (2008): Perception of dialectal prosody. Proceedings of
Interspeech, 524-527.
Lucci, V. (1983): Phonétique du français contemporain à travers la variation situationnelle (débit,
rythme, accent, intonation, ə muet, liaisons, phonèmes). Grenoble (Publications de
l'université de langues et des lettres de Grenoble).
Lüdi, G. & Werlen, W. (2005): Sprachenlandschaft in der Schweiz – Eidgenössische Volkszählung
2000. Neuchâtel (Office fédéral de la statistique).
Mahmoudian, M. & Jolivet, R. (1984): L'accent vaudois. In Encyclopédie illustrée du Pays de Vaud,
vol. 11, Lausanne (Editions 24Heures), 306.
Manno, G. (2007): La situation du français en Suisse: considérations démolinguistiques et de
politique linguistique. Publifarum: Constellations francophones, 7. Disponible:
http://publifarum.farum.it/ezine_articles.php?art_id=45. (01.10.12)
Matthey, M. (2003): Le français langue de contact en Suisse romande. Glottopol, Revue de
sociolinguistique en ligne, 2, 92-100. Disponible: http://www.univ-
rouen.fr/dyalang/glottopol/telecharger/numero_2/09matthey.pdf. (25.01.12)
Métral, J.-P. (1977): Le vocalisme du français en Suisse romande. Considérations phonologiques.
Cahiers Ferdinand de Saussure, 31, 145-176.
Miller, J. L., Grosjean, F. & Lomato, C. (1984): Articulation rate and its variability in spontaneous
speech: A reanalysis and some implications. Phonetica, 41, 215-225.
42 La prosodie du "français fédéral"
Miller, J. S. (2007): Swiss French prosody. Intonation, rate and speaking style in the Vaud Canton.
Thèse de doctorat, University of Illinois at Urbana-Champaign.
Quené, H. (2005): Modeling of variation between and within speakers spontaneous speech tempo.
9th European Conference on Speech Communication and Technology, Lisbonne, 2457-2460.
Pasdeloup, V. (1992): Durée syllabique dans le groupe accentuel en français. Actes des XIXè
Journées d'Etudes de la Parole, 531-536.
Post, B. (2011): The multi-facetted relation between phrasing and intonation contours in French.
In Gabriel, C. & Lleó, C. (éds), Intonational Phrasing in Romance and Germanic: Cross-
linguistic and bilingual studies. New York (John Benjamins), 43-74.
Rossi, M. (1979): Le français, langue sans accent ? Studia Phonetica, 15, 13-51.
Schläper, R. (1985): Dialecte et langue standard. In Schläper, R. (éd.), La Suisse aux quatre
langues. Genève (Editions Zoé), 11-19.
Schwab, S. (2007): Les variables temporelles dans la production et la perception de la parole.
Thèse de doctorat, Université de Genève.
Schwab, S. & Racine, I. (2012). Le débit lent des Suisses romands: mythe ou réalité ? Journal of
French Language Studies, 22(2), 1-15.
Schwab, S., Dubosson, P. & Avanzi, M. (2012a): Etude de l'influence de la variété dialectale sur la
vitesse d'articulation en français. Actes des XIXè Journées d'Etudes de la Parole, 521-528.
Schwab, S., Avanzi, M., Goldman, J.-P., Montchaud, P. & Racine, I. (2012b): An Acoustic Study of
Penultimate Accentuation in three Varieties of French. Proceedings of Speech Prosody, 266-
269.
Sichel-Bazin, R., Buthke, C. & Meisenburg, T. (2012): The prosody of Occitan-French bilinguals. In
Braunmüller K. & Gabriel C. (éds), Multilingual Individuals and Multilingual Societies.
Amsterdam / Philadelphia (John Benjamins), 349–364.
Singy, P. (1996): L'image du français en Suisse romande. Une enquête sociolinguistique en Pays de
Vaud. Paris (L'Harmattan).
Vaissière, J. (1990): Rhythm, accentuation and final lengthening in French. In Sundberg, J., Nord L.
& Carlson, R. (éds), Music, Language, Speech and Brain. Londres (Macmillan Press), 108-
121.
Verhoven, J., De Pauw, G., Kloots, H. (2004): Speech rate in a pluricentric language: a comparison
between Dutch in Belgium and the Netherlands. Language and Speech, 47, 297-308.
Vieru, B., Boula de Mareüil, P., Adda-Decker, M. (2011): Characterisation and identification of non-
natove French accents. Speech communication, 53, 292-310.
Woehrling, C., Boula de Mareüil, P. & Adda-Decker, M. (2008): Aspects prosodiques du français
parlé en Alsace, Belgique et Suisse. Actes des XXVIIè Journées d'Etudes de la Parole, 1586-
1589.
Travaux neuchâtelois de linguistique, 2013, 59, 43-56
Gegenstand der vorliegenden Arbeit ist die Anwendung von Linear Least Squares by
SVD auf die Analyse der lokalen Akzentkonturen der Grundfrequenz (f0) des
Walliserdeutschen. Ein zentraler Vorteil dieser Methode liegt darin, dass die
Wichtigkeit der verschiedenen Varianten von kategorischen Variablen separat
berechnet wird und zudem auch numerische Variablen verwendet werden können.
Ausgehend von den walliserdeutschen Sprachdaten von Leemann (2012) im Rahmen
des Fujisaki-Modell Ansatzes konnten Parameter errechnet werden, die 80% der
Positionen von lokalen Akzenten in einem Testdatensatz korrekt voraussagen können
(Peter, 2011). Dies ist insofern erstaunlich, als die Intonationsstrukturen des
Walliserdeutschen landläufig als "unverständlich" (Ris, 1992), "exotisch" (Werlen und
Matter, 2004) oder "hochgradig variabel" (Leemann, 2012) gelten.
1. Introduction
The intonation contours of the Valais Swiss German dialect have long been
perceived as being extraordinary compared to other Swiss German dialects.
While in other dialects, lexical stress manifests itself mainly with an
increased f0, more distinct intensity and duration, there appears to be little
correlation1 between lexical stress and f0 in the Valais dialect (Leemann,
2012). This may be one of the reasons why Stalder (1819: 7–8) attributed a
"singing" quality to their speech melody. Nearly a century later, Wipf (1910:
19) notes that pitch accents (f0 peaks) in Valais Swiss German do not
coincide 2 with dynamic accents (more distinct loudness) and that the
distribution of pitch accents is completely free. She points out:
When first listening [to Valais Swiss German speakers], one does not, however, obtain
this pleasant, harmonious impression. Instead, after realizing that they are in fact
speaking German and not Romansh, one is overcome with an almost annoying sensa-
tion, as if the people place accents as strongly as possible on the most irrelevant of
syllables (1910: 19)3.
1
f0 contours are often found on adjacent unstressed syllables.
2
In other words, lexical stress in Valais Swiss German only manifests itself in more distinct
intensity and duration.
3
Translation adopted from Leemann (2012: 81).
44 New approach towards predicting local f0 movements
4
The subscript i denotes the index of the phrase command inside the utterance.
5
In Figure 1, the Api parameters are plotted as vertical arrows.
Naoki PETER & Adrian LEEMANN 45
Fig. 1: The Fujisaki intonation model including phrase and accent commands (adopted from
Fujisaki (1984: 235), modified by Peter). AC amplitude corresponds to the height of the rectangles
in the "Accent Command" subplot.
6
The subscript j denotes the index of the accent command inside the utterance.
46 New approach towards predicting local f0 movements
Fig. 2: The interpolation formula of the Fujisaki model. The constants α, β, and ɣ were set to
2.0/sec, 20.0/sec, and 0.9/sec respectively. For more information on the mathematical
formulation, see Leemann (2012: 143-144).
In practice, the presence and shape of phrase and accent commands are
determined manually by means of an f0-curve-fitting editor developed by
Fujisaki (Fujiparaeditor).
7
The variable focus stands for a deliberate emphasis made by the speaker. See Leemann
(2012: 127ff.) for further explanations.
8
The variable strength of break corresponds to the length of the pause between the current
and the previous intonation phrase and is measured in seconds.
9
Based on the number of syllables produced per second, each speaker was attributed one of
the labels slow, normal, and fast. See Leemann (2012: 233) for further details.
Naoki PETER & Adrian LEEMANN 47
Variable Levels
10
In Peter (2011), the schwa level was merged with the unstressed level. The existence of a
schwa in the nucleus is captured by a separate variable (nucleusSchwa).
11
The coefficient of determination (R2) is a statistical measure that provides information
about the goodness of fit. It is bounded by 0 and 1 and is a measure for the overall variability
that can be accounted for by the variables in the model.
48 New approach towards predicting local f0 movements
2. Analysis
In this section we will first give a short description of Linear Least Squares
by SVD. Next, we will present its application to Valais Swiss German speech
data (Peter, 2011: 16–21). The last subsection is devoted to Peter’s
validation criteria of the analysis results (2011: 14–16)13.
12
SVD stands for Singular Value Decomposition.
13
In the validation component, we evaluate the fit of the model with respect to factors that are
prerequisite for a natural sounding f0 synthesis.
Naoki PETER & Adrian LEEMANN 49
The left hand side of the equations contains the response variable. In our
case this is the variable for the AC amplitude acAmplitude14. The right hand
side of each equation consists of the sum of the explanatory variables that
are scaled by linear parameters a015, a1, …, an. These parameters are the
unknowns of the model. Intuitively, the larger a parameter, the greater is
the impact of the corresponding variable value onto the response variable
on the left hand side.
In order to integrate categorical variables like emotion in the model, we
convert each of their variants into a separate variable that can only assume
the value 1 (standing for present) or 0 (standing for absent)16. So a token
with the emotion variant neutral is represented by the emotionNeutral
variable set to 1 and all the other emotion variables (like emotionBored,
emotionDisgust, etc.) set to 0.
This approach of variable splitting may look tedious, but it actually brings
about a significant analytical advantage. Since each of the variants is
accompanied by a separate parameter, it is possible to see the individual
effects on the AC amplitude directly. Variables that have a parameter with a
positive sign are AC amplitude boosters whereas variables with negative
parameters are AC amplitude suppressors.
The output of the LLS by SVD algorithm are the optimal parameters a0, a1, …,
an17. Based on these values, the relative importance of each explanatory
variable can be deduced by calculating its contribution to the reduction of
the residual norm, which is a measure for evaluating the fit of the model
with respect to the data (Peter, 2011: 18).
14
The absence of an AC was treated as an AC amplitude of 0.
15
a0 is not attached to a variable. It is for coping with a constant bias between the values on
both sides of the equation.
16
In programming, these sort of variables are typically called Boolean.
17
High efficiency and robustness against linear dependencies are two of the most important
advantages of LLS by SVD in comparison to other methods.
50 New approach towards predicting local f0 movements
18
A Boolean variable has only two levels. Generally, level 1 stands for yes (or present) while
level 0 means no (or absent).
19
The variant fear is dropped due to the small token quantity (21).
Naoki PETER & Adrian LEEMANN 51
As can be seen in Table 2, the variable focus turned out to be by far most
influential when it comes to raising AC amplitudes. This is intuitively
plausible since local f0 changes are primarily responsible for prominence
marking (Leemann, 2012: 65). A look into the complete dataset confirms
this finding: As a matter of fact, 86% of the focused speech segments also
have an AC.
The second most important variable is wordClass. Although it is considered
significant in Leemann’s analysis as well, it is held responsible for a relative
contribution of only 3% (2012: 255) Again, a preliminary analysis of the data
shows that 82% of the lexical segments have an AC while 18% do not. As for
the non-lexical segments, however, only 67% are part of an AC while 33%
are not accented21. There is also a noteworthy difference with respect to
the average AC amplitude: For lexical segments it is 0.208 ln Hz whereas for
grammatical segments it is 0.190 ln Hz.
Not surprisingly, the third most important variable is segment. As
mentioned, this variable was included to distinguish between real speech
segments and pauses. Its positive parameter value proves that real
segments have a much bigger chance of carrying ACs than pauses, which is
not much of an astonishing insight. All in all, the above three variables have
the greatest positive influence on the AC amplitude.
A bit bewildering, however, is the relatively high ranking of nucleusSchwa
since, intuitively, we associate schwa with unstressed syllables. But, as
mentioned above, the analysis of Leemann’s data proves that an
astonishing share of 76% of schwa syllables in fact are spanned by an AC.
The two emotion variables emotionHappy and emotionBored also have an
influence on AC amplitudes, the former in a positive (i.e. amplitude
increasing manner), the latter in a negative (i.e. amplitude decreasing, see
negative sign of parameter) way. Again, this sounds logical since the f0 of a
20
CONST is a variable whose only purpose is to even out a constant bias in the equations. Its
parameter corresponds to a0 in section 2.1.
21
As a matter of fact, a share of AC-carrying non-lexical segments of 67% looks unusually high.
We see it as a manifestation of the free pitch accent in Valais Swiss German (Wipf, 1910: 19)
which gives it a singing quality (Stalder, 1819: 7-8).
52 New approach towards predicting local f0 movements
happy (or excited) person generally sounds more variable while the f0 of a
bored person tends to be monotonous.
The contribution of the remaining factors to the norm decrease is less than
2% of the largest norm decrease (by the factor focus), so they have virtually
no influence on local accents. As already noted by scholars like Wipf (1910)
and Leemann (2012), this also includes lexical stress.
2.3 Validation
About 50% of Leemann’s speech data had been spared for the validation of
the obtained parameters22. The validation process applies the parameters
obtained in the previous step to the explanatory variables of the validation
dataset and compares the result, i.e. the predicted AC amplitude
(acAmplitude′), with the actually measured AC amplitude (acAmplitude).
The deviation is measured in terms of the absolute difference.
acAmplitude’ a0 + a1 · wordClass + a2 · emotionNeutral + a3 · emotionBored + …
deviation |acAmplitude − acAmplitude′|
In Peter (2011), the quality of the predictions were validated with respect to
the following three criteria:
1. AC placement: The model should be able to distinguish between
speech segments that carry an AC and speech segments that do not.
2. Average AC amplitude deviation: The model should be able to predict
the amplitude of the ACs as accurately as possible.
3. AC boundaries: The model should be able to predict the boundaries
between successive ACs correctly.
The first criterion AC placement can be validated quite easily since the
prediction for a given speech segment can only be either true or false23. But
since we are dealing with a simplified model of reality, the predicted AC
amplitudes of syllables that do not carry an AC will never be exactly 0 (as in
the dataset) but some small value around 0. So we need a mechanism to
tell "real" amplitudes (belonging to speech segments that do carry an AC)
from "false" amplitudes (belonging to speech segments that do not carry an
AC). This is achieved by setting a border value d0 that yields the best
separation with respect to the training data. Every amplitude that is larger
than d0 is considered real whereas speech segments with AC amplitudes
smaller than d0 are considered to be lacking an AC. In the model presented
above, the optimal d0 value turned out to be 0.0464 ln Hz.
22
In Peter (2011), the utterances of each speaker were divided equally between the training
and the validation set.
23
Wrong predictions can either be false positives, i.e. predicting an AC where there is actually
none, or false negatives, i.e. predicting no AC where there actually is one.
Naoki PETER & Adrian LEEMANN 53
24
Imagine a dependent variable that has two variants, one of which is much rarer than the
other one (say 5% vs. 95%). Then a program that always predicts the frequent variant and
never the rare one would have 95% accuracy. But this is clearly not what we want. In
Leemann’s dataset, 66.4% of the speech segments carry an AC whereas only 33.6% do not.
Since both the presence and the absence of ACs are supposed to be predictable with equal
reliability, the LLS algorithm was weighted to prevent a bias in favor of AC-carrying
segments. See Gonnet and Scholl (2009) for more details.
54 New approach towards predicting local f0 movements
Fig. 3: The connection between average AC amplitude and the difficulty of AC boundary detection.
3. Discussion
25
Actually, the flat contours are also a consequence of our AC synthesis approach. After
identifying a multi-syllable AC, we took the average of the predicted AC amplitudes of the
syllables. So when we mistook two successive ACs as one AC, the resulting accent is longer
and more levelled out.
Naoki PETER & Adrian LEEMANN 55
4. Conclusions
The goal of Peter (2011) was to find out (1) whether scientific computing
techniques could shed light on the f0 contours in the VS dialect and (2) to
what extent linguistic insights could be gained from the results. Although
the presented model is far from perfect, the good results that could be
achieved with respect to the detection of local accent contours justify
26
Zemp (2008) describes intonation patterns in the framework of autosegmental-metrical
phonology (Pierrehumbert, 1980 and Silverman et al., 1992) and additional annotation tiers
where relative intervals are captured (measured in semitones). This way of analyzing pitch is
in line with the concept of “timbre-based melody” put forth by Minematsu und Nishimura
(2008). According to the latter, human beings are usually unaware of absolute pitch in
sounds. What is actually perceived are the pitch movements over time (“relative pitch”).
27
Basically, the Fujisaki model allows superposition of accent commands to interpolate any
sort of intonation contour. Whether this is an intuitive model of the underlying mechanisms
is a different question.
56 New approach towards predicting local f0 movements
answering (1) with a "YES". In our opinion, the inability of the present model
to separate successive local accents can be attributed to the limited
amount of training data and missing paralinguistic factors (whose
investigation is beyond the scope of the present study). As for (2), the
results clearly confirmed several qualitative observations with respect to f0
peculiarities in the Valais dialect, such as the independence of pitch accent
placement from lexical stress. So the application of Linear Least Squares
by SVD can indeed yield linguistically valuable insights.
Bibliography
Fujisaki, H. (1984): Analysis of voice fundamental frequency contours for declarative sentences of
Japanese. Journal of the Acoustical Society of Japan, 5 (4), 233-42.
Gonnet, G. H. & Scholl, R. (2009): Scientific Computation. Cambridge (Cambridge University Press).
Leemann, A. (2012): Swiss German Intonation Patters. Amsterdam / Philadelphia (Benjamins).
Minematsu, N. & Nishimura, T. (2008): Consideration of infants’ vocal imitation through modeling
speech as timbre-based melody. New Frontiers in Artificial Intelligence, LNAI4914, 26-39.
Peter, N. (2011): The local contours of the voice fundamental frequency in the Swiss German
dialect of Valais. Bachelor’s thesis, University of Bern.
Pierrehumbert, J. 1980. The Phonology and Phonetics of English Intonation. Ph.D. Thesis, MIT.
Ris, R. (1992): Innerethik der deutschen Schweiz. In: Hugger, P. (Hg.). Handbuch der
schweizerischen Volkskultur, Bd. II. Offizin, 749-766.
Silverman, K. E. A. et al. (1992): TOBI: A Standard for Labelling English Prosody: Proceedings of the
1992 International Conference on Spoken Language Processing, 2, 867-870.
Stalder, F. J. (1819): Die Landessprachen der Schweiz oder Schweizerische Dialektologie. Aarau
(Sauerländer).
Werlen, I. & Matter, M. (2004): Z Bäärn bin i gääre: Walliser in Bern. In: Glaser, Elvira et al. (Hg.).
Alemannisch im Sprachvergleich: Beiträge zur 14. Arbeitstagung für alemannische
Dialektologie in Männedorf (Zürich) vom 16. 18.9.2002. Wiesbaden (Franz Steiner), 263-280.
Wipf, E. (1910): Die Mundart von Visperterminen im Wallis. Frauenfeld (Huber).
Zemp, M. (2008): Anredekonturen im Luzerndeutschen: Eine intonationale Teilgrammatik.
Arbeitspapiere, Institut für Sprachwissenschaften, Universität Bern, Bd. 44, 1-61.
Travaux neuchâtelois de linguistique, 2013, 59, 57-70
Ingrid HOVE
University of Zurich
Cette recherche étudie dans quelle mesure l'origine géographique d’un locuteur
influence son accent dans une langue étrangère. L’anglais et le français parlés par
des Allemands et des Suisses alémaniques sont examinés à travers une expérience
de perception et d’analyses phonétiques. L’expérience de perception démontre que
les participants sont bien capables d'indiquer si une phrase est lue par un Allemand
ou un Suisse alémanique; les participants de langue maternelle allemande y
réussissent le mieux. L’analyse prosodique permet d'observer de nettes différences
entre les deux groupes de locuteurs. Dans la lecture des phrases françaises, les
Suisses alémaniques ont tendance à accentuer la première syllabe des mots, en
montant avec leur intonation et en prolongeant la durée des voyelles. Les Allemands,
en revanche, accentuent par une intonation fortement montante la dernière syllabe
des mots.
1. Introduction
When we hear a person speaking with a foreign accent it is often quite easy to
divine the speaker’s mother tongue if it is a language we are at least vaguely
familiar with. The question which underlies the study presented in this paper is
the following: Does a person’s accent allow the listener to divine more than just
the speaker’s native language, namely, can he or she be located geographically
within the linguistic area? The aim of this study was to find out whether Germans
and German-speaking Swiss can be told apart due to their accent in English and
French and, if so, to investigate some of the prosodic features which may
contribute to this distinguishability.
Different studies have explored similar questions. In a perception experiment
Kolly (2013) presented the subjects with excerpts in Standard German and in
French spoken by people from St. Gall and Berne. The native speakers of Swiss-
German performed well in assigning the origin of a speaker for the texts in
Standard German; the other results also showed tendencies of recognition.
Boula de Mareüil et al. (2008) examined the identification of regional and foreign
accents in French. They found that the identification of the origin of a speaker
was based mainly upon segmental information. In contrast, prosodic features did
not lead to clear tendencies of identification.
Leemann and Siebenhaar (2008) tested the recognition of dialectal prosody with
four Swiss-German dialects. The results of their perception experiment with
58 Prosodic differences between Germans & German-speaking Swiss in L2
speech material devoid of segmental cues show that regional dialects can be
identified based solely on prosodic cues.
Avanzi et al. (2012) and Barquero Armesto (2012) found prosodic differences
between French spoken by native speakers and French spoken by speakers of
Swiss-German and Spanish respectively.
The study consists of two parts: on the one hand, there is a perception
experiment and, on the other hand, there is the phonetic analysis of the
recordings.
The data consists of the recordings of five speakers from Germany and five
speakers from German-speaking Switzerland. The German speakers are from the
northern or central part of Germany, namely Hamburg (2), Kassel,
Mönchengaldbach and Cologne. The Swiss speakers are from St. Gall, Zurich,
Zurich-Aargau, Berne and the Valais. Each speaker reads the text The north wind
and the sun in German, English and French. The recordings were made with a
Zoom H2 in a quiet office.
The aim of the perception experiment is to show whether or not Germans and
German-speaking Swiss can be told apart due to their accent in English and
French. In order to test this, ten excerpts were cut out of the French recordings
and ten out of the English recordings. The excerpts are very short, they only last
between 1.5 and 3 seconds. Half of the excerpts are from German speakers, half
from Swiss speakers.
The participants of the perception experiment were told that the speakers were
either Germans or German-speaking Swiss. The questionnaire contains the
orthographic transcription of each excerpt. Each excerpt was played only once.
The participants then had a few seconds to check the box indicating the
presumed origin of the speaker and their degree of certainty. The following figure
shows part of a translated questionnaire; the complete version is attached in the
appendix.
Ingrid HOVE 59
Table 1: Part of the translated questionnaire for the participants of the perception experiment
The participants of the perception experiment were also asked to specify features
of which they believe that they distinguish the accents of Germans from Swiss.
Furthermore, they declared their native language(s) and their level of competence
in English and French.
On the whole, 200 subjects participated in the experiment. Most of the
participants were students at the University of Zurich.
In the second part of the study the recordings were analyzed phonetically. These
analyses were carried out with the entire recordings, not only with the excerpts
chosen for the perception experiment.
The participants’ answers to the question as to wherein the Germans and the
German-speaking Swiss differ in their eyes have not yet been fully analyzed. They
shall be presented in a later publication.
The following section will first present the results of the perception experiment,
then the results of the phonetic analyses.
3. Results
Figure 1: Proportions of the French and English excerpts which the participants assigned correctly
or falsely to German or Swiss speakers respectively
The most important factor which has an influence upon the proportion of correct
assignments is the native language of the participants. The 149 participants
whose native language is German perform much better (French 81%; / English
90% correct assignments) than the 41 speakers1 of another language (64% / 66%
correct assignments), though even in the latter group the proportion of correct
answers is significantly above chance (χ2 = 453; df = 2; p < .0001 for French; χ2 =
572; df = 2; p < .0001 for English). A closer look at the participants whose native
language is German shows that those participants who claim that both Swiss
German and the variety of German spoken in Germany are their native languages
perform best. Since this is only the case for 7 speakers, however, this result
should not be overrated, even if it does seem plausible.
Participants whose native language is the language spoken in the excerpts
perform below average. The 5 native speakers of French only assign 72% of the
French excerpts correctly and the 8 native speakers of English only get 65% of the
English excerpts right2.
Furthermore, the connection between competence and performance was tested.
This was done by using cross tables. For both languages the chi-square values
were highly significant (χ2 = 47.6; df = 4; p < .0001 for French; χ2 = 26.6; df = 3; p
< .0001 for English 3 ). This means that there must be significant deviations
between the count and the expected count in one or more categories. For French,
the standard residual for people who say they do not speak French is 5.4 for the
wrong and -3.0 for the correct answers, which means that these participants
1
The total is lower than 200 because 10 participants did not fill out the part about their native
language and their L2-competence.
2
Despite the small size of both groups the numbers are still significant: χ2 = 48.4; df = 2;
p < .0001 for the French speakers judging the French excerpts; χ2 = 45.5; df = 2; p < .0001 for
the English speakers judging the English excerpts.
3
The degree of freedom is lower for English since the two lowest categories of competence
were put together.
Ingrid HOVE 61
more often give a wrong answer and less often a correct answer when judging the
origin of the speaker of a French excerpt. For English, people who judge their
competence level of English as poor or average give more wrong answers than
expected (standard residual 3.1 and 2.5), people who consider their English as
very good (but not excellent or as their mother tongue) give significantly less
wrong answers (standard residual -2.5) (cf. Hove [accepted] for details).
In conclusion, it seems that participants with a low level of competence in French
or English perform below average when judging the excerpts in the respective
language. However, people who consider their competence of French or English
as excellent or for whom it is the mother tongue do not perform above average
when deciding whether an L2-speaker is from Germany or Switzerland. Overall,
the competence level of French and English does not have a very strong influence
upon a subject’s performance in the perception experiment.
3.2.1 Duration
In this section the duration of consonants and vowels will be looked at. As to the
consonants, for the German language, in particular for the Swiss German dialects,
a lot of research has been done on geminates. It is well documented that most
Swiss German dialects have geminate consonants (e.g. Hotzenköcherle, 1965:
182-203; Willi, 1996). When speaking the standard variety of German, which has
no geminates, most Swiss tend to pronounce intervocalic consonants after a
short accented vowel with a longer duration than consonants in other positions
(Christen et al., 2010: 183). This can also be observed in the German recordings of
the present corpus: In words such as Sonne ('sun') or stritten ('argued') both the
absolute duration of the intervocalic consonants [n] and [t] as well as their
relative duration in comparison to the preceding vowel is higher for the Swiss
than for the Germans.
In the French version of The northwind and the sun intervocalic [k] and [s] appear
in the phrase chacun assurant [qu’il était le plus fort]. The measurements
revealed that the Swiss do not pronounce these intervocalic consonants with a
longer duration than the Germans. This might be due to the accentuation, a factor
discussed on the following pages.
In the English text there is no word in which an intervocalic fortis consonant
occurs after a short accented vowel.
62 Prosodic differences between Germans & German-speaking Swiss in L2
In the French text the duration of the vowels was examined as well. Using the two
disyllabic words tombés and d’accord as examples, the duration of both vowels in
each word was measured. The following figure shows the relative duration of the
second (last) vowel in relation to the first vowel for each of the two words.
In both words, the Germans pronounce the second vowel about twice as long as
the first one. For the Swiss speakers the relative duration between the two vowels
is also about 1 : 2 in the second word, which is at the end of a phrase. However, in
the word tombés they pronounce both vowels with almost the same duration; the
first vowel is even slightly longer than the final one. In the word tombés, which is
in the middle of a phrase, the Swiss accentuate the first syllable, [tɔ̃], while the
Germans accentuate the final syllable, [be].
All speakers emphasize the final syllable of the phrase, d’accord, by pronouncing
it with a longer vowel. This can be due to the fact that the final syllable in French
is accentuated (see below) or it can be due to the more universal phenomenon of
phrase-final lengthening.
3.2.2 Intonation
A similar pattern can be seen when looking at the intonation patterns. The
following figure shows the intonation patterns of a German and a Swiss speaker
for the same phrase, ils sont tombés d’accord. The graph was produced by using
the intonation curves of the computer programs Praat (Boersma/Weenink) and
Prosogram (Mertens). The height of the box represents 100 Hz4.
4
For this phrase (as well as for the one depicted in figure 4) a ToBI label would not bring out
the important difference between the two pronunciations. In both cases the word tombés
would be annotated with the label L+H* ; however, it would not show that the prominent
syllable to which this tone applies is in one case the second, in the other case the first
syllable of the word tombés.
Ingrid HOVE 63
German speaker:
(Mönchengladbach)
Swiss speaker:
(Berne)
Figure 3: Intonation patterns of a German and a Swiss speaker for a French phrase with two
disyllabic words
Both in the word tombés as well as in d’accord the German speaker from
Mönchengladbach pronounces the first syllable with a low or falling pitch while
rising strongly on the second syllable, thereby accentuating it. In contrast, the
Swiss speaker from Berne produces the first syllables of both words with a rising
pitch, whereas the second syllables are spoken with a steady high pitch.
Even if these are only two speakers and there is a lot of variation, both pitch
patterns seem to be typical for their group.
The examination of trisyllabic words also reveals fundamental differences in the
pitch movements of Germans and Swiss. The phrase looked at is un voyageur qui
s’avançait.
German speaker:
(Cologne)
Swiss speaker:
(St. Gall)
Figure 4: Intonation patterns of a German and a Swiss speaker for a French phrase with two
trisyllabic words
As in the disyllabic words, the speaker from Germany pronounces the last syllable
of the words voyageur and s’avançait with a strong rise in pitch. The Swiss
64 Prosodic differences between Germans & German-speaking Swiss in L2
speaker from St. Gall has a rising pitch on the first two syllables of each word
while the last syllable is spoken in a lower pitch.
Vieru et al. (2011) found pitch rises on maintained word-final schwas in German5
speakers of French, whereas English Italian and native French speakers show
pitch falls in the same contexts.
The French language does not have an accent on words, it has an accent at the
end of a phrase (Schmid, 2009: 49). Native speakers of German – a language with
a word accent – tend to impose a word accent on their pronunciation of French. It
is highly interesting to note that they do this in different ways: The German
speaking Swiss tend to accentuate French words on the first syllable in the way
many German words are accented. The Germans, on the other hand, accentuate
French words on the last syllable. The accentuation of the end of a phrase in
French is presumably perceived as a wordfinal accentuation and is therefore also
applied to words which are not at the end of a phrase.
These differences in pattern are difficult to explain. They might have something to
do with a fact that has also been observed in German: In foreign words such as
Büro or Apostroph, in names (eg. Neptun, Merkur) and in acronyms (eg. FDP, ARD),
speakers from Switzerland are much more likely to accentuate the first syllabe
than the Germans, who usually accentuate the last syllable (Christen et al., 2010:
247f.; Sieber, 2001: 495f.).
It is interesting to note here that Woehrling et al. (2008) found a tendency toward
initial stress in the French-speaking Swiss Canton de Vaud. This hints at the
possibility that there might be a regional component to stress which interacts
across languages.
Avanzi et al. (2012) compared the pronunciation of French by native speakers and
speakers of Swiss-German. They found differences in accent and phrasing: the
number of prominences was higher for the Swiss-German speakers than for the
native speakers of French. Barquero Armesto’s (2012) findings for Spanish
learners of French are similar.
The speakers realize the accentuation by increasing the duration of the syllable in
question and by pronouncing it with a rising pitch. Remarkably, the accentuated
syllable is not necessarily realized with an increased intensity.
For the English text the examination of the pitch revealed many differences
between the speakers, but no patterns were found which could be considered as
typical either for the Germans or the Swiss.
Some Swiss speakers did show striking rises on accented syllables but they were
neither systematic nor exclusive to their group. At best, when speaking English,
the Swiss speakers might produce syllables with a striking rise in pitch more
5
The origin of the German speakers is not specified. However, since it is said that they
started studying French at 17 it is unlikely that they are from German-speaking Switzerland
where French is taught at the latest from the 7th school year on.
Ingrid HOVE 65
frequently than the Germans but this would need to be looked into more
thoroughly.
3.2.3 Intensity
The third prosodic feature which was examined was intensity. In the French texts
no systematic differences between speakers from Germany and Switzerland were
found. In the English texts there might be a slight tendency for Swiss speakers to
start a decrease of the intensity earlier than the Germans. Schematically, this
feature would look like this:
German speaker:
Swiss speaker:
Figure 5: Recurring intensity patterns of German and Swiss speakers in English phrases6
These patterns were found in phrases such as wrapped in a warm cloak or in the
title The northwind and the sun. They were also found in the German texts.
However, their occurrence was far from systematic. In addition, even when
listening to two clear cases this difference is not a perceptually salient feature.
6
This graph is presented here in an abstract and admittedly vague manner because the
absolute values are not comparable. As mentioned, the recordings were made in an office;
the distance between the microphone and the mouth of the speaker was not always the
same.
66 Prosodic differences between Germans & German-speaking Swiss in L2
sounds. Among Germans, uvular realizations can occur and in a few cases Swiss
speakers produced an alveolar [r]. Cases of final devoicing can be found for
Germans whereas a few cases of across-word assimilation appear in texts spoken
by Swiss readers.
In French as well as in English a noticeable difference between the speaker
groups is the fact that the Swiss have trouble with the lenes [b], [d], [g], [ʒ] and
[dʒ] which they often devoice partially or totally.
Both in the English and in the French texts the Germans produce many more
glottal stops than the Swiss and in general the Germans aspirate the plosives
more strongly.
4. Conclusion / Discussion
The results of the perception test show that people with the same native language
but who speak a different variety of this language can be told apart by their
foreign accent. In this study, the two groups are speakers from Germany and from
German-speaking Switzerland who can be told apart based on their accent in
French or in English.
Previous studies have shown that even within German-speaking Switzerland
speakers of different dialects can be differentiated based on their L2-accent
(Kolly, 2013) or based on prosodic features (Leemann & Siebenhaar, 2008). The
findings of the present study indicate that at the same time there must be
similarities between the L2 speech of speakers of different Swiss dialects which
allow listeners to identify them as Swiss and keep them apart from speakers from
Germany.
The phonetic analysis of the recordings of the Germans and the Swiss speaking
French and English reveal some systematic differences on the segmental level.
These cannot on their own account for the high rate of correct attributions since
the excerpts are only about two seconds long and many of them do not contain
sound variants which were found to be typical for one or the other speaker group.
Therefore, there must also be differences on the prosodic level. Many differences
were found between the speakers; however, the high within-speaker variability
and between-speaker variability make it difficult to find systematic prosodic
differences between the two speaker groups. Though certain tendencies such as
the different stress and pitch pattern in French were found, much more research
is necessary to find features indicative of a certain accent. New technologies (cf.
Jilka, 2000; Boula de Mareüil &Vieru-Dimulescu, 2006; Grabe, 1998) might prove
to be helpful in this process.
I would like to give my thanks to the people who participated in this study by reading the texts or
by judging the excerpts. I also thank my colleagues at the Phonetics Laboratory in Zurich Stephan
Schmid, Volker Dellwo, Jürg Strässler, Adrian Leemann, Marie-José Kolly and Dieter Studer for
Ingrid HOVE 67
their help and their suggestions, Adrian Leemann and Sandra Schwab for organizing the workshop
and the publication, and Aurore Bettinville for her help with the statistics.
Bibliography
Avanzi, M. et al. (2012): Accentual Transfer from Swiss-German to French. A Study of 'Français
Fédéral'. In: Proceedings of Interspeech 2012, Portland (USA).
Barquero Armesto, M. (2012): A comparative study on accentual structure between Spanish
learners of French interlanguage and French native speakers. In: Proceedings of Speech
Prosody, Shanghai, 2012, 250-253.
Boersma, P. & Weenink, D.: Praat: doing phonetics by computer. Version 5.2.17, retrieved march
2011 from http://www.praat.org
Boula de Mareuil, P. & Vieru-Dimulescu, B. (2006): The contribution of prosody to the perception of
foreign accent. In: Phonetica, 63, 247-267.
Boula de Mareuil, P. et al. (2008): Accents étrangers et régionaux en français. Caractérisation et
identification. In: Traitement Automatique des Langues, 49(3), 135-162.
Christen, H. et al. (2010): Hochdeutsch in aller Munde. Eine empirische Untersuchung zur
gesprochenen Standardsprache in der Deutschschweiz. Stuttgart (Franz Steiner Verlag).
Fitzpatrick-Cole, J. (1999): The alpine intonation of Bern Swiss German. In: ICPhS99, 941-944.
Grabe, E. (1998): Pitch accent realization in English and German. In: Journal of Phonetics, 26, 129-
143.
Hirschfeld, U., Kelz, H. P. & Müller, U. (Hg.): Phonetik International. Von Afrikaans bis Zulu.
Kontrastive Studien für Deutsch als Fremdsprache. Bonn: Popp (retrieved October 2011
from http://www.phonetik-international.de/p-phonetik).
Hotzenköcherle, R. (Hg.) (1965): Sprachatlas der deutschen Schweiz. Bd. II: Lautgeographie:
Vokalquantität, Konsonantismus. Bearb. v. D. Handschuh, R. Hotzenköcherle & R. Trüb.
Bern u.a. (Francke).
Hove, I. (forthcoming): Mit deutschem Akzent sprechen. Analyse der Unterschiede zwischen
Deutschschweizern und Deutschen, die Französisch und Englisch sprechen. In: D. Huck
(Hg.): Alemannische Dialektologie: Dialekte im Kontakt. Beiträge zur 17. Arbeitstagung für
alemannische Dialektologie in Straßburg (Elsass / Frankreich), 26.-28.10.2011. Stuttgart
(Franz Steiner Verlag), ZDL-Beiheft.
Jilka, M. (2000): The Contribution of Intonation to the Perception of Foreign Accent. Doctoral
Dissertation, Arbeiten des Instituts für Maschinelle Sprachverarbeitung (AIMS) Vol. 6(3),
University of Stuttgart. (retrieved July 2011 from http://ifla.uni-
stuttgart.de/institut/mitarbeiter/jilka/papers/diss.pdf).
Kolly, M.-J. (2013): Akzent auf die Standardsprachen: Regionale Spuren in “Français fédéral” und
“Schweizerhochdeutsch”. In: Linguistik online, 58/1, 37-76.
Leemann, A. & Siebenhaar, B. (2008): Perception of Dialectal Prosody. In: Proceedings of
Interspeech 2008, Brisbane, Australia, 22.-26.9.2008, 524-527.
Leemann, A. (2007): Acoustic analysis of Swiss English vowel quality. Bern (retrieved January 2012
from
http://www.isw.unibe.ch/unibe/philhist/isw/content/e4267/e4385/e5406/e5427/e5988/Lee
mann-MAThesis(2006)_ger.pdf)
Magen, H.S. (1998): The perception of foreign-accented speech. In: Journal of Phonetics, 26, 381-
400.
68 Prosodic differences between Germans & German-speaking Swiss in L2
Mertens, P.: Prosogram 2.9. Transcription of prosody using pitch contour stylization based on a
tonal perception model and automatic segmentation, retrieved june 2012 from
http://bach.arts.kuleuven.be/pmertens/prosogram/
Schmid, S. (2009): Einführung in die allgemeine Phonetik und Phonologie für Studierende der
Romanistik. Zürich: Phonetisches Laboratorium.
Sieber, P. (2001): Das Deutsche in der Schweiz. In: G. Helbig et al. (Hg.), Deutsch als Fremdsprache.
Ein internationales Handbuch. Berlin & New York (de Gruyter), 491-504.
Stock, E. (2000): Zur Intonation des Schweizerhochdeutschen. In: M. Habermas, P. Müller & B.
Naumann (Hg.), Wortschatz und Orthographie in Geschichte und Gegenwart. Tübingen
(Niemeyer), 299-314.
Ulbrich, Ch. (2005): Phonetische Untersuchungen zur Prosodie der Standardvarietäten des
Deutschen in der Bundesrepublik Deutschland, in der Schweiz und in Österreich. Frankfurt
am Main (Lang).
Vieru, B., Boula de Mareüil, P. & Adda-Decker, M. (2011): Characterisation and identification of
non-native French accents. In: Speech Communication, 53, 292-310.
Willi, U. (1996): Die segmentale Dauer als phonetischer Parameter von ‚fortis’ und ‚lenis’ bei
Plosiven im Zürichdeutschen: eine akustische und perzeptorische Untersuchung. Stuttgart
(Franz Steiner).
Woehrling, C. et al. (2008): A corpus-based prosodic study of Alsatian, Belgian and Swiss French.
In: 9th Annual Meeting of the International Speech Communication Association, Brisbane,
780-783.
Ingrid HOVE 69
Appendix
La bise et le soleil
La bise et le soleil se disputaient, chacun assurant qu'il était le plus fort. Quand ils ont vu un
voyageur qui s'avançait, enveloppé dans son manteau, ils sont tombés d'accord, que celui qui
arriverait le premier à le lui faire ôter serait regardé comme le plus fort. Alors, la bise s'est mise à
souffler de toute ses forces, mais plus elle soufflait, plus le voyageur serrait son manteau autour
de lui. Finalement, elle renonça à le lui faire ôter. Alors, le soleil commença à briller et au bout
d'un moment le voyageur, réchauffé, ôta son manteau. Ainsi, la bise a du reconnaître que le soleil
était le plus fort.
Sandra Schwab
Ecole de langue et de civilisation françaises, Université de Genève
The aim of this research is to examine whether Spanish speakers transfer some
accentual acoustic properties from Spanish to French L2. Native Spanish learners of
French and native speakers of French were instructed to read French sentences that
contained a trisyllabic pseudoword ending with an open syllable (e.g. poutila) or
closed syllable (e.g. poutilar). In half of the sentences, the pseudoword was a noun in
a stressed position, while in the other half it was an adjective in an unstressed
position. Acoustic analyses (duration, F0 and amplitude) were performed on the three
vowels of the pseudoword, as well as on the first vowel following the pseudoword.
Results showed that Spanish speakers have acquired the knowledge that, contrary to
Spanish, stress is fixed in French (on the last syllable), but not that stress is realized
at the accentual phrase level rather than at the word level as in Spanish.
1. Introduction
1
Notons que le français possède également un accent secondaire qui peut être de nature
rythmique ou emphatique et dont la position dans le mot est variable (Rossi, 1981). L'accent
emphatique ou d'insistance, dont l'apparition dépendrait de facteurs pragmatiques, a aussi
été décrit pour l'espagnol (Quilis, 1993).
2
Relevons toutefois que si le patron oxyton se réalise surtout en lecture ou dans un discours
neutre, il ne se produit pas toujours de cette manière dans un discours spontané (Léon,
2007).
72 Apprenants hispanophones de FLE et accentuation en français
primaire que des contours intonatifs, ce qui mène à une certaine fusion
entre accentuation et intonation (Lacheret & Beaugendre, 1999).
En espagnol, l’accent dit "libre" peut apparaître sur une des trois dernières
syllabes du mot (Alcoba & Murillo, 1998), ce qui donne lieu à trois patrons
accentuels: oxyton, paroxyton et proparoxyton3. Ainsi, on observe géné-
ralement, pour les mots en isolé, une correspondance univoque entre mot
et accent: un mot ne contient qu'un accent lexical. L'accent espagnol ne
présente pas une fonction démarcative4 (Quilis, 1993), mais une fonction
distinctive, puisqu’il permet de distinguer des paires minimales accen-
tuelles (ex. número ['nu-me-ɾo], le numéro et numero [nu-'me-ɾo], je numérote).
Étant donné la nature libre de l'accent espagnol, si un apprenant de
l'espagnol devait lire des mots qu'ils ne connaît pas (et donc, déterminer la
syllabe accentuée), il pourrait se baser sur la règle suivante: l'accent lexical
tombe sur la dernière syllabe d'un mot si ce dernier se termine par une
syllabe fermée (ex. hablar [a-'blaɾ], parler) et tombe sur l'avant-dernière
syllabe si le mot se termine par une syllabe ouverte (ou par –n ou –s) (ex.
hablo ['a-blo], je parle; casas ['ka-sas], les maisons). Toute exception à cette
règle est indiquée par un accent graphique qui indique la syllabe accentuée
(número, ['nu-me-ɾo], le numéro; esquí [es-'ki], ski; ágil ['a-xil], agile).
Bien que la réalisation acoustique de l’accent primaire implique, tant en
français qu’en espagnol, une variation des trois paramètres acoustiques
(durée, fréquence fondamentale (F0) et intensité; correspondant aux
paramètres perceptifs suivants: longueur, hauteur et intensité), les deux
langues n'utilisent pas lesdits paramètres de la même manière. Comme le
soulignent Delattre (1938) et Léon (2007), une syllabe accentuée en français
est en moyenne deux fois plus longue qu'une syllabe inaccentuée. Une
augmentation de la durée des syllabes inaccentuées à l'approche de la
syllabe accentuée est également caractéristique de l'accentuation en
français (Léon & Martin, 2000). De plus, les syllabes accentuées en français
peuvent aussi être accompagnées d'une montée de F0. Toutefois, comme le
signale Vaissière (1991), en raison du syncrétisme entre accentuation et
intonation, on pourrait davantage attribuer les mouvements de F0 à la
présence de frontières prosodiques qu'à la présence d'un accent.
Finalement, l'intensité ne joue pas un rôle primordial dans l'accentuation
en français, du moins en ce qui concerne l'accent non emphatique (Delattre,
1966).
3
Il est également possible de rencontrer le patron "superproparoxyton" dans des
combinaisons comme ábremelo (ouvre-le-moi) (Quilis, 1993).
4
Cependant, selon certains auteurs (par exemple, Pamies & Amorós, 2005), le déplacement
du pic de F0, caractéristique de l'accent espagnol (Llisterri, Machuca, de la Mota, Riera &
Ríos, 1995), constituerait, d'une certaine manière, un indice de la fonction démarcative de
l'accent espagnol.
Sandra SCHWAB 73
5
Bien que les termes "langue seconde" (L2) et "langue étrangère" (LE) ne soient pas
synonymes (Baralo, 1999), ils sont utilisés de manière interchangeable dans cet article, tout
comme les termes "langue maternelle" et "langue première" (L1).
74 Apprenants hispanophones de FLE et accentuation en français
groupe accentuel, étant donné que l'accent est réalisé au niveau lexical en
espagnol et au niveau du groupe accentuel en français.
2. Méthode
2.1 Participants
Six participants ont pris part à cette expérience: trois locuteurs
francophones natifs (deux hommes et une femme) et trois locuteurs
hispanophones (un homme et deux femmes) apprenants avancés de
français (B2-C1). Les locuteurs hispanophones, tous originaire de la
Péninsule Ibérique (Castille, Estrémadure, Andalousie), vivaient à Genève
au moment de l’expérience et avaient vécu au moins deux ans dans un pays
francophone. Le français constituait pour chacun d’entre eux une deuxième
langue étrangère après l’anglais.
2.2 Matériel
Dix-huit non-mots trisyllabiques ont été créés en suivant les règles
phonotactiques du français. Ces non-mots présentaient la structure
syllabique CV.CV.CV et les caractéristiques suivantes: 1) ils commençaient
tous par l'une des consonnes occlusives sourdes /p/, /t/, /k/, qui
apparaissaient chacune au début de six non-mots; 2) les trois voyelles à
l'intérieur du non-mot étaient /i/, /a/ et /u/, qui apparaissaient chacune six
fois dans chaque position (1ère, 2ème et 3ème syllabe) sur l'ensemble des
stimuli. Nous avons évité les voyelles avec un accent graphique (étant
donné que l'accent graphique en espagnol indique la syllabe accentuée),
les voyelles nasales (étant donné leur graphie peu transparente) et les
voyelles pouvant présenter un timbre ouvert ou fermé; 3) chaque syllabe
initiale (/pi/, /pa/, /pu/, /ti/, /ta/, /tu/, /ki/, /ka/, /ku/) apparaissait deux fois
sur l'ensemble des stimuli; 4) les consonnes attaques des syllabes
médianes et finales étaient /p/, /t/, /k/, /m/, /n/, /l/ qui apparaissaient
chacune trois fois dans chaque position (syllabe médiane et finale) sur
l'ensemble des stimuli. Nous avons exclu les consonnes occlusives sonores
en raison de leur prononciation approximante en espagnol (qui, si
prononcée ainsi en français, aurait rendu l'alignement des phones du non-
mot particulièrement difficile); 5) chaque syllabe de la liste suivante
apparaissait une fois en position médiane et une fois en position finale:
/ka/, /ku/, /ki/, /la/, /li/, /lu/, /ma/, /mi/, /mu/, /na/, /ni/, /nu/, /pa/, /pi/,
/pu/, /ta/, /ti/, /tu/
À chaque non-mot se terminant par une syllabe ouverte CV.CV.CV (ex.
poutila, caloupi, toutali, talicou) était associé un non-mot se terminant par
une syllabe fermée (CV.CV.CVC) dont la consonne finale était /R/ ou /l/, ces
deux consonnes apparaissant chacune dans neuf non-mots (ex. poutilar,
76 Apprenants hispanophones de FLE et accentuation en français
caloupil, toutalil, talicour). Au total, 36 non-mots ont été utilisés dans cette
expérience: 18 avec la structure syllabique CV.CV.CV (Condition CV) et 18
avec la structure syllabique CV.CV.CVC (Condition CVC)
Nous avons créé six phrases porteuses: trois phrases dans lesquelles le
non-mot jouait le rôle d'un substantif en position accentuée au sein du
groupe accentuel (Contexte Substantif; ex. un certain poutila || piquait tous
les touristes), et en contrepartie, trois phrases dans lesquelles le non-mot
jouait le rôle d'un adjectif dans une position non-accentuée au sein du
groupe accentuel (Contexte Adjectif; ex. un poutila pic || était très utile).
Dans toutes les phrases, nous avons fait suivre le non-mot d'un mot
commençant par une consonne occlusive sourde (ex. piquait, pic), afin de
faciliter l'alignement des phones du non-mot.
Chacun des 36 non-mots CV et sa contrepartie CVC ont été introduits dans
l'une des paires de phrases porteuses, de telle sorte que chaque phrase
porteuse apparaisse le même nombre de fois. Au total, 72 phrases ont été
utilisées dans cette expérience.
2.3 Procédure
Les participants ont été enregistrés individuellement dans une pièce
insonorisée. L'expérience se divisait en deux parties. Dans l'une d'entre
elles, les participants produisaient les phrases contenant le non-mot
substantif et dans l'autre, ils produisaient les phrases contenant le non-
mot adjectif. La moitié des participants commençaient avec les non-mots
substantifs et l'autre moitié avec les non-mots adjectifs.
Chaque non-mot était présenté (sur un écran d'ordinateur) dans un premier
temps en isolé, et dans un deuxième temps, dans la phrase porteuse, afin
de faciliter la production du non-mot en parole continue. Les participants
devaient lire les non-mots et les phrases à un débit normal, et en cas
d'hésitation, ils devaient répéter le non-mot ou la phrase.
2.5 Prédictions
En ce qui concerne la structure syllabique du non-mot (CV/CVC), nous
prédisons que, si transfert il y a, elle jouera un rôle différent chez les
locuteurs francophones et hispanophones. Chez les premiers, nous nous
attendons à ne pas trouver de différences entre l'accentuation des non-
mots CV et CVC. Chez les seconds, en revanche, nous prédisons une
accentuation sur la deuxième syllabe des non-mots CV et sur la dernière
syllabe des non-mots CVC, et ce, en raison des règles d'accentuation en
6
Désireux de fournir une description acoustique, nous n'avons pas analysé les données avec
la méthodologie ToBI (Beckman, Hirschberg & Shattuck-Hufnagel, 1997) qui propose un
codage tonal. Notons encore que, bien qu'il existe diverses mesures relatives à F0 (entre
autres, la valeur maximale de F0 ou la pente de F0), notre choix s'est porté sur la valeur
moyenne de F0, couramment utilisée par les chercheurs en prosodie (par exemple, Boula de
Mareüil, Adda-Decker, Woehrling, Bardiaux, & Simon, 2012). À l'avenir, nous pourrions
également examiner les valeurs de F0 issues du modèle de Fujisaki qui cherche à modéliser
les contours intonatifs (Fujisaki, 1984; Leemann, 2012).
78 Apprenants hispanophones de FLE et accentuation en français
3. Résultats et discussion
3.1 Durée
Les résultats n'ont pas montré d'interaction triple impliquant la structure
syllabique, le groupe et la voyelle (F(3, 1599)= 2.44, n.s.). Ainsi,
contrairement à nos prédictions, la structure syllabique n'a pas un effet
différent chez les francophones et chez les hispanophones. Nous avons
donc réuni les données CV et CVC et nous avons calculé un nouveau modèle
en excluant la structure syllabique des prédicteurs. Comme on peut le voir
sur la Figure 1, cette nouvelle analyse a révélé une interaction Contexte x
Voyelle (F(3, 1612) = 191.75, p < .001), une interaction Groupe x Voyelle (F(3,
1612) = 5.45, p < .001), et pas d'interaction triple Contexte x Groupe x
Voyelle (F(3, 1612) = 0.37, n.s.)7. L'absence d'une interaction triple indique
que, contrairement à nos attentes, la différence entre la production des
non-mots substantifs et adjectifs est similaire chez les francophones et
chez les hispanophones.
7
Notons ici que l'examen des effets simples de Groupe, Contexte et Structure syllabique n'a
aucun intérêt, étant donné que toutes les moyennes de ces effets simples sont à 1 (puisque
chaque rapport a été calculé sur la base de la moyenne des quatre voyelles). Cela vaut
également pour les analyses de F0 et d'intensité.
Sandra SCHWAB 79
Durée (rapport)
1.2 1.2
1.1 1.1
1.0 1.0
0.9 0.9
0.8 0.8
0.7 0.7
0.6 0.6
V1 V2 V3 Vp1 V1 V2 V3 Vp1
Voyelle Voyelle
Fig. 1: Durée (exprimée en rapport) en fonction de la voyelle et du groupe pour les non-mots
substantifs en position accentuée à gauche et pour les non-mots adjectifs en position non-
accentuée à droite (les données CV et CVC sont réunies)
3.2 F0
L'analyse n'a pas montré d'interaction triple impliquant la structure
syllabique, le groupe et la voyelle (F(3, 1588)= 1.68, n.s.). Ainsi, comme pour
la durée, contrairement à nos prédictions, la structure syllabique n'a pas un
80 Apprenants hispanophones de FLE et accentuation en français
1.1 1.1
F0 (rapport)
F0 (rapport)
1.0 1.0
0.9 0.9
0.8 0.8
0.7 0.7
0.6 0.6
V1 V2 V3 Vp1 V1 V2 V3 Vp1
Voyelle Voyelle
En résumé, pour ce qui est de F0, les productions des non-mots des
hispanophones et des francophones ne se distinguent ni par l'effet de la
structure syllabique, ni par l'impact du contexte dans lequel se trouve le
Sandra SCHWAB 81
3.3 Intensité
Les résultats n'ont pas montré d'interaction triple impliquant la structure
syllabique, le groupe et la voyelle (F(3, 1588) = 0.43, n.s.). Ainsi, comme
pour la durée et F0, et contrairement à nos prédictions, la structure
syllabique n'a pas un effet différent chez les francophones et chez les
hispanophones. Nous avons donc réuni les données CV et CVC et nous
avons calculé un nouveau modèle en excluant la structure syllabique des
prédicteurs. Cette nouvelle analyse a révélé, comme on peut l'observer sur
la Figure 3, une interaction Contexte x Voyelle (F(3, 1601) = 280.84, p < .001),
mais pas d'interaction Groupe x Voyelle (F(3, 1612) = 0.63, n.s.) ni
d'interaction triple Contexte x Groupe x Voyelle (F(3, 1612) = 1.74, n.s.).
Ainsi, l'absence d'interaction triple reflète que la différence entre la
production des non-mots substantifs et adjectifs est similaire chez les
francophones et chez les hispanophones. L'interaction entre le contexte et
la voyelle révèle, dans les non-mots substantifs, une intensité similaire de
V1 à V3 et une diminution de l'intensité de V3 à Vp1, et ce, qu'il s'agisse de
francophones ou d'hispanophones. Dans les non-mots adjectifs, on
observe par contre une augmentation de l'intensité de V1 à V2 et une
intensité similaire de V2 à Vp1, autant pour les francophones que pour les
hispanophones. On remarque donc que la voyelle porteuse de l'accent n'est
pas marquée par une augmentation d'intensité, quel que soit le groupe de
locuteurs.
0.9 0.9
0.8 0.8
0.7 0.7
V1 V2 V3 Vp1 V1 V2 V3 Vp1
Voyelle Voyelle
Fig. 3: Intensité (exprimée en rapport) en fonction de la voyelle et du groupe pour les non-mots
substantifs en position accentuée à gauche et pour les non-mots adjectifs en position non-
accentuée à droite (les données CV et CVC sont réunies)
82 Apprenants hispanophones de FLE et accentuation en français
4. Discussion générale
Cette recherche avait pour but d'examiner dans quelle mesure les locuteurs
natifs de l'espagnol transfèrent certaines propriétés accentuelles de
l'espagnol en français L2. Pour cela, nous avons cherché à étudier l'impact
que peuvent avoir la structure syllabique (CV/CVC) et le contexte
(accentué/non-accentué) sur la production de non-mots par des
francophones natifs et des hispanophones apprenants avancés de français.
Tout d'abord, concernant la structure syllabique, nous prédisions des
différences entre les non-mots CV et CVC chez les hispanophones mais pas
de différences chez les francophones. Autrement dit, nous nous attendions
à trouver, si transfert il y avait, une interaction triple impliquant la
structure syllabique, le groupe et la voyelle. Toutefois, l'absence d'une telle
interaction (que cela soit pour la durée, F0 ou l'intensité) indique que les
hispanophones se comportent comme les francophones, dans le sens que
leur production des non-mots ne se voit pas davantage affectée par la
structure syllabique. Ils n'ont donc pas transféré leurs connaissances
concernant la position de l'accent en espagnol vers le français L2.
En ce qui concerne le contexte, nous prédisions des différences chez les
francophones entre la production des non-mots substantifs en position
accentuée et des non-mots adjectifs en position non-accentuée, mais pas
de différences chez les hispanophones. Autrement dit, nous nous
attendions à trouver une interaction triple impliquant le contexte, le groupe
et la voyelle. L'absence d'interaction reflète néanmoins que les différences
entre les non-mots substantifs et les non-mots adjectifs constatées chez
les francophones sont également observées chez les hispanophones. En
effet, ces derniers, comme les francophones, accentuent la syllabe
porteuse de l'accent (i.e. la dernière syllabe du groupe accentuel): ils
accentuent ainsi la dernière syllabe du non-mot (V3) lorsque ce dernier se
trouve dans la position d'un substantif accentué (ex. un certain poutila ||
piquait tous les touristes), alors qu'ils accentuent le mot monosyllabique
suivant le non-mot (Vp1) lorsque celui-ci est un adjectif non-accentué (ex.
un poutila pic || était très utile). De plus, les locuteurs hispanophones, de
même que les francophones, marquent la syllabe accentuée au moyen de
variations de durée et de F0, mais pas d'intensité (ce qui semble confirmer
le rôle peu important de l'intensité dans la réalisation de l'accent français).
Sandra SCHWAB 83
Remerciements
Bibliographie
Alcoba, S. & Murillo, J. (1998): Intonation in Spanish. In: D. Hirst & A. Di Cristo (eds.), Intonation
Systems. Cambridge (Cambridge University Press), 152-166.
Altmann, H. & Vogel, I. (2002): L2 acquisition of stress: The role of L1. Communication presented at
DGfS Annual Meeting Multilingualism Today, Mannheim, Germany, March 2002.
Altmann, H. (2006): The perception and production of second language stress: A cross-linguistic
experimental study. Ph.D. Dissertation, University of Delaware.
Archibald, J. (1995): The acquisition of stress. In: J. Archibald (ed.), Phonological Acquisition and
Phonological Theory. New Jersey (L. Erlbaum Associates Inc), 81-109.
Baayen, R. H., Davidson, D. J. & Bates, D. M. (2008): Mixed effects modeling with crossed random
effects for subjects and items. Journal of Memory and Language, 59, 390-412.
Baralo, M. (1999): La adquisición del español como lengua extranjera. Madrid (Arco libros).
Bates, D. M. & Sarkar, D. (2007): lme4: Linear mixed-effects models using S4 classes, R package
version 2.6.
Beckman, M., Hirschberg, J. & Shattuck-Hufnagel, S. (2004): The original ToBI system and the
evolution of the ToBI framework. In: S.-A Jun (ed.), Prosodic models and Transcription:
Towards Prosodic Typology. Oxford (Oxford University Press).
Best, C. T. (1995): A direct realistic view of cross-language speech perception. In: W. Strange (ed.),
Speech perception and linguistics experience: Issues in cross-language research. Baltimore
(York Press), 233-277.
Boersma, P. & Weenink, D. (2011): Praat: doing phonetics by computer (Version 5.2).
www.praat.org.
Sandra SCHWAB 85
Boula de Mareüil, P., Woehrling, C., Adda-Decker, M., Bardiaux, A. & Simon A.-C. (2012): Une étude
par traitement automatique de la prosodie du français à la frontière des domaines roman et
germanique. In A.-C. Simon (dir.), La variation prosodique régionale en français, Bruxelles
(De Boeck), 121-138.
Canellada, M. J. & Madsen, J. K. (1987): Pronunciación del español. Lengua hablada y literaria.
Madrid (Castalia).
Carton, F. (1997): Introduction à la phonétique du français. Paris (Dunod).
D’Imperio, M., Elordieta, G., Frota, S., Prieto, P. & Vigario, M. (2005): Intonational phrasing in
Romance: The role of syntactic and prosodic structure. In: S. Frota, M. Vigario and M.J.
Freitas (eds.), Prosodies: With special reference to Iberian languages. Berlin (Walter de
Gruyter), 59–97.
Delattre, P. (1938): L'accent final en français: accent d'intensité, accent de hauteur, accent de
durée. The French Review, 12, 141-145.
— (1966): Studies in French and comparative phonetics. The Hague (Mouton).
Dresher, B. E. & Kaye, J. (1990): A computational learning model for metrical phonology. Cognition,
34, 137-195.
Flege, J. E. (1995): Second language speech learning: theory, findings and problems. In: W. Strange
(ed.), Speech perception and linguistics experience: Issues in cross-language research.
Baltimore (York Press), 233-277.
Fujisaki, H. (1984): Analysis of voice fundamental frequency contours for declarative sentences of
Japanese. Journal of the Acoustical Society of Japan, 5.4, 233-42.
Goldman, J.-P. (2011): EasyAlign: An automatic phonetic alignment tool under Praat. Proc. 12th
Interspeech, 3233-3236.
Hirst, D. (2011): The analysis by synthesis of speech melody: From data to models. Journal of
Speech Sciences, 1(1), 55-83.
Kijak, A. (2009): How stressful in L2 stress? A cross-linguistic study of L2 perception and
production of metrical systems. Utrecht (LOT).
Lacheret-Dujour, A. & Beaugendre F. (1999): La prosodie du français. Paris (CNRS éditions).
Leemann, A. (2012): Swiss German Intonation Patters. Amsterdam / Philadelphia (Benjamins).
Léon, P. & Martin, P. (2000): Prosodie et technologie. In: E. Guimbretière (éd.), Apprendre,
enseigner, acquérir: la prosodie au cœur du débat. Rouen (Publications de l'Université de
Rouen), 135-150.
Léon, P. (2007): Phonétisme et prononciations du français. Paris (Armand Colin).
Llisterri, J., Machuca, M. J., de la Mota, C., Riera, M. & Ríos, A. (1995): Factors affecting F0 peak
displacement in Spanish. Proc Eurospeech’95. 4th European Conference on Speech
Communication and Technology, Madrid, vol. 3, 2251-2254.
Llisterri, J., Machuca, M., Ríos, A. & Schwab, S. (soumis): El acento léxico en contexto: Datos
acústicos. Proc. V Congreso de Fonética Experimental, Octubre 2011.
Pamies, A. & Amorós, M. C. (2005): Pico tonal, acento y fronteras morfo-semánticas: experimento
con hablantes granadinos. Estudios de Fonética Experimental, 14, 202-223.
Peperkamp, S. & Dupoux, E. (2002): A typological study of stress ‘deafness’. In: C. Gussenhoven, N.
Warner (eds.), Laboratory Phonology 7. Berlin (Mouton de Gruyter), 203-240.
Post, B. (1999): Restructured phonological phrases in French: Evidence from clash resolution.
Linguistics, 37/1, 41-63.
Quilis, A. (1981): Fonética acústica de la lengua española, Madrid (Gredos).
— (1993): Tratado de fonología y fonética españolas, Madrid (Gredos).
Rossi, M. (1979): Le français, langue sans accent. Studia Phonetica, 15, 13-52
86 Apprenants hispanophones de FLE et accentuation en français
— (1981): Le cadre accentuel et le mot en italien et français. In: P. Léon, M. Rossi (éds.),
Problèmes de prosodie. Paris (Didier), 9-22.
Troubetzkoy, N. S. (1949): Principes de Phonologie, Paris (Klincksieck).
Vaissière, J. (1991): Rhythm, accentuation and final lengthening. In: J. Sundberg, L. Nord, R.
Carlson (eds.), French in music, language, speech and brain. Wenner-Gren International
Symposium (Series Macmillan Press), Vol. 59, 108-120.
— (2002); Cross-linguistic prosodic transcription: French vs. English. In: N. B. Volskaya, N. D.
Svetozarova & P. A. Skrelin (eds.), Problems and methods of experimental phonetics. In
honour of the 70th anniversary of Pr. L. V. Bondarko. St Petersburg (St Petersburg State
University Press), 147-164.
Travaux neuchâtelois de linguistique, 2013, 59, 87-107
Die vorliegende Studie untersuchte die Rolle von stimmhaften Intervallen (d.h.
Intervalle laryngaler Aktivität) rhythmische Charakteristika im Sprachsignal zu
kodieren. Die Dauercharakteristika stimmhafter und stimmloser intervalle (%VO,
deltaUV, VarcoUV, VarcoVO, n-PVI_VO, r-PVI_UV) wurden analysiert. Aufgrund der
untersuchten Sprachen konnten wir zeigen, dass stimmhafte Dauercharakteristika
effektiv zu einer Klassifizierung von Sprachen führen, die einer auditorischen
Klassifizierung der Sprachen in Rhythmusklassen (akzentzählend, silbenzählend)
entspricht. Weiterhin fanden wir Variation zwischen den Sprechern einer Sprache
(Deutsch). Wir argumentieren, dass unsere Methode direkt verwandt mit der
möglicherweise auditiv hervortretensten Komponente der menschlichen Stimme (das
Stimmsignal) ist. Methodische Vorteile sind, dass die stimmlichen
Dauercharakteristika verlässlich automatisch aufgrund des Stimmsignals berechnet
werden können. Implikationen unserer Befunde zum Erwerb prosodischer Phänomene
und zur Wahrnehmung von Sprache durch Neugeborene werden diskutiert.
1. Introduction
over which speech is voiced (%VO) and the standard deviation of unvoiced
intervals (deltaUV). We showed that the stress-timed languages English
and German differ significantly from syllable-timed French and Italian
according to these voice dimensions. The aim of the present research was
to extend this analysis to other datasets and a wider range of measures. We
have now also looked at the variability of VO-intervals by calculating
measures that were previously used to capture the variability of V-
intervals, like deltaV and nPVI. Additionally we have now also looked at rate
normalised variants of the measures that have been shown to correlate
with speech rate (varcoC, varcoV; see Dellwo, 2006; White and Mattys,
2007). In doing this we have addressed the following two questions:
(a) How do rhythmical measurements of UV- and VO-intervals
compare to their C- and V- interval peers in distinguishing languages
of different rhythm classes?
We sought to answer this question by comparing the results of
measurements of durational C- and V- interval characteristics with
the results of measurements of UV- and VO- intervals for the same
speech material. The material used for this part of the study came
from sentences produced in isolation in languages classified as
stress-, syllable- and mora-timed languages. These sentences were
compiled for one of the key studies on speech rhythm measures
(Ramus et al., 1999) and then served subsequently as a basis for a
number of follow up studies (e.g. Rincoff et al., 2005; Toro et al.,
2003).
(b) Can rhythm-class specific characteristics of VO- and UV-intervals
be derived from larger unedited speech recordings automatically?
This second question was addressed by recording and measuring a
larger set of spoken material from 3 speakers in 4 different stress-
and syllable-timed languages using an electrolaryngograph. This
method provided us with direct access to what is ordinarily heard as
“voicing” and gives a more reliable basis for the detection of periodic
vocal fold activity, henceforward 'voice', and gave a robust basis for
an automatic analysis of VO- and UV- patterns.
(c) Is there within-language variability of durational characteristics of
VO- and UV-Intervals?
This point was addressed by analysing 15 speakers of German from
the BonnTempo Corpus (Dellwo et al., 2004).
92 Rhythmic characteristics of voice between and within languages
very short duration were mis-labelled by the algorithm. For this reason,
results from the automatic labelling procedure were corrected manually.
Figure 1: Mean values with standard errors (+-1) for the Ramus et al. (1999) measures top and the
Grabe and Low (2002) measures bottom. These measurements are based on the Ramus-corpus.
94 Rhythmic characteristics of voice between and within languages
2.3 Discussion
In summary, the results show that for the dataset used in Ramus et al.
(1999), %VO and deltaUV are equally powerful in distinguishing between the
three rhythm-classes as their CV peers %V and deltaC. This result is in
accordance with the results from our previous study where we found that
stress-timed English and German vary significantly from syllable-timed
French and Italian according to a speech rate normalised version of
deltaUV, the varcoUV (see Dellwo, 2006, and White and Mattys, 2007, for
the concept of the ‘varco’).
In the case of nPVI the data revealed that measurements based on VO- and
UV- intervals show a different pattern from C- and V-interval measures. The
Volker DELLWO & Adrian FOURCIN 95
For our second dataset, speech from two stress-timed (English and
German) and two syllable-timed languages (French and Spanish) was
recorded using an electrolaryngograph (Fourcin and Abberton, 2008). This
technique monitors vocal fold contact conductance during phonation via
two electrodes which are applied to either side of the speaker’s thyroid
cartilage. The current flow over time (Lx waveform) provides a robust
indication of the physical presence or absence of voicing. The same USB
Laryngograph Ltd. laptop data acquisition system was used throughout in
all countries.
intensity contour which are 25dB below the peak intensity and have a
minimum duration of 100 ms. These regions were identified as speech
pauses and automatically labelled using Praat's 'To TextGrid (silences)'
function. Only speech between two pauses (inter-pause interval,
henceforth: IPI) was included in the analysis.
The VO- and UV-intervals were detected automatically in the same way as
in the Ramus-corpus (see above); however, this time the detection of
fundamental period markers was not based on the acoustic speech signal
but on the laryngograph waveform (Lx waveform). This method is more
robust than methods based on acoustic signals and thus erroneous
detection of voicing in aperiodic signals did not occur.
Some of the IPIs consisted only of one VO- and one UV- interval and
standard deviations cannot be calculated for these numbers. We therefore
only included IPIs containing at least 2 VO-intervals and 2 UV-intervals. An
average of 28 (+-7) IPIs were excluded from the analysis because of this
constraint. The total number of IPIs per language were (number of IPIs in
brackets): English (209), French (205), German (475), and Spanish (253). The
average number of VO- and UV-intervals per IPI in each language were:
English (13.3), French (15.0), German (16.1), and Spanish (17.7). The
proportional standard deviation of each of these mean values (coefficient
of variation) was 24.2% (+-4). This implies that the total number of VO- and
UV-intervals was drastically higher in German than in any other language
and the figures confirm this: English (2603), French (2929), German (7075),
and Spanish (4203). Given these figures the possibility arose that the high
number of German intervals may be an artefact of the automatic
processing. For this reason all IPI intervals were checked manually —
whether (a) they were correct IPIs in the sense of containing speech
between two pauses and (b) whether the automatic voiced/voiceless
labelling produced intervals corresponding to the respective regions in the
laryngograph (and acoustic) signal. It was found that the automatic
procedures worked correctly and that German speakers simply produce a
much larger number of VO-/UV-intervals for reading material of comparable
length. A comparison between the individual speakers revealed that this
not a result of a particular individual but that pauses are pretty evenly
distributed across speakers.
3.2 Measurements
In section 2 the data was analysed using the classic rhythm measures %V,
deltaC, and the n and r PVI. In this part of our work we used data that had
not been labelled according to C- and V-interval durations, thus we only
applied the rhythm measures to VO- and UV-intervals.
Volker DELLWO & Adrian FOURCIN 97
measure t(1140) P
Table 1: Results for the independent samples t-test with 'rhythm class' as a grouping variable
(group 1: stress-timed, group 2: syllable-timed). Column 1 contains the measure names, column 2
the t-value for 1140 degrees of freedom and column 3 the probability (p).
Results for %VO and deltaUV replicate the patterns found in the Ramus-
corpus (see above). %VO is higher for syllable-timed than for stress-timed
languages and deltaUV is lower for syllable- than for stress-timed
languages. So the classic pattern of stress-timed languages being
proportionally less vocalic but more variable in their consonantal interval
durations also holds for their voicing: stress timed languages are
proportionately less voiced and their unvoiced periods are more variable
than in syllable timed languages.
Volker DELLWO & Adrian FOURCIN 99
Figure 2: Measurements from the LX-corpus showing mean values and (+- 1) standard errors for
each rhythm class (1 = stress-timed, 2 = syllable-timed).
Figure 3: Voicing rate measured in voiced and unvoiced intervals per second. The graph plots the
mean values with standard error (+-1) for the languages German (G), English (E), French (F), and
Spanish (S).
Figure 4: %VO (top) and VarcoVO (bottom) as a function of 15 different speakers in the BonnTempo
Corpus (mean values and standard-errors).
Volker DELLWO & Adrian FOURCIN 103
5. General discussion
different genres). We found that we could replicate the general results from
section 2 that the voicing patterns in stress-timed languages are more
variable than in syllable-timed languages. In section 4 we looked at the
durational variability of voicing patterns within languages and found
considerable variability between speakers of German taken from the
BonnTempo corpus. So in summary our research showed that some
languages can be robustly distinguished from others (e.g. stress- and
syllable-timed languages) simply on the basis of physically defined voiced
and unvoiced intervals and this is also true for some of the speakers within
the languages. In the following we will discuss the particular advantages
and more general implication of this segmentation procedure.
The methodological advantage of the present method is that rhythmic
classification of languages can be carried out with precision and relatively
little effort. Manual labelling of consonantal and vocalic intervals is labour
intensive and because of the considerable level of phonological knowledge
involved in this process (e.g. is a retroflex approximant vocalic or
consonantal?) automatic procedures have so far given unsatisfactory
results. Such procedures would require specific training for individual
languages when applied cross linguistically. Also, because of the level of
phonological knowledge involved in the labelling of vocalic and consonantal
intervals, between-labeller disagreement can be significant This
disagreement is even stronger across different languages or when
accentual pronunciation variability occurs. Detecting voiced and voiceless
parts of the signal is a much easier and more reliable method and it is
applicable on a cross language basis with fewer assumptions. To obtain
additional precision obtaining the 'voice'-data, technology monitoring vocal
fold activity directly can be used (e.g. laryngograph).
Since fewer assumptions are required to distinguish stress- and syllable-
timed languages on the basis of voiced and voiceless cues this may also
have implications in regard to our understanding of both how adults and
indeed infants distinguish between rhythm-classes (Ramus et al., 1999).
After all, infants receive most of their initial familiarization with speech
acoustics in the mother's womb where they are exposed to a highly low
pass filtered signal (larynx to otic capsule vibrotactile transmission) and no
visual cues are available. In such an environment voice cues are much more
salient than any other acoustic feature of speech. For this reason we
propose the hypothesis that infants may prefer voice variability cues over
consonantal and vocalic interval variability cues to distinguish between
speech rhythm classes. And we can probably take another step. Since we
saw that voicing characteristics vary between speakers of the same
language it might be well possible that such characteristics are also salient
to the infant at an early stage and that for example the ability to distinguish
the mother from other women or the father from other men is based on
Volker DELLWO & Adrian FOURCIN 105
Acknowledgements
We wish to thank Franck Ramus for sharing the speech data used in Ramus
et al. (1999). We further wish to thank Sandra Schwab, Evelyn Abberton and
Patti Adank for helpful comment on draft versions of this paper. Further
thanks goes to one anonymous reviewer of the paper for TRANEL.
106 Rhythmic characteristics of voice between and within languages
Bibliography
Johnson, D. (1980): The relationship between spike rate and synchrony in responses of auditory-
nerve fibers to single tones. Journal of the Acoustical Society of America, 68 (4), 1115-1122.
Nazzi, T., Ramus, F. (2003): Perception and acquisition of linguistic rhythm by infants. Speech
Communication, 41, 233–243.
Nazzi, T., Bertoncini, J., and Mehler, J. (1998): Language discrimination by newborns: Toward an
understanding of the role of rhythm. Experimental Psychology, 24, (3), 756-766.
Pike, K. (1945): Intonation of American English. Ann Arbor (University of Michigan Press).
Ramus, F. (2002): Acoustic correlates of linguistic rhythm: Perspectives. Proceedings of Speech
Prosody, 11-13.
Ramus, F., Hauser, M.D., Miller, C, Morris, D., and Mehler, J. (2000): Language discrimination by
human newborns and cotton-top tamarin monkeys. Science, 288, 349-351.
Ramus, F., Nespor, M., and Mehler, J. (1999): Correlates of linguistic rhythm in the speech signal.
Cognition, 73, 265-292.
Ramus, F. and Mehler, J. (1999): Language identification based on suprasegmental cues: A study
based on resynthesis. Journal of the Acoustical Society of America, 105, (1), 512-521.
Rincoff, R., Hauser, M., Tsao, F., Spaepen, G., Ramus, F., and Mehler, J. (2005): The role of speech
rhythm in languages discrimination: further tests with a non-human primate.
Developmental Science, 8, (1), 26-35.
Roach, P. (1982): On the distinction between 'stress-timed' and 'syllable-timed' languages," In D.
Crystal (ed.): Linguistic controversies, London (Edward Arnold), 73-79.
Sayles, M., and Winter, I. (in press): Ambiguous Pitch and the Temporal Representation of
Inharmonic Iterated Rippled Noise in the Ventral Cochlear Nucleus. Journal of
Neuroscience.
Toro, J.M., Trobalon, J.B., and Sebastian-Galles, N. (2003): The use of prosodic cues in language
discrimination tasks by rats. Animal Cognition, 6, (2), 131-136.
White, L. and Mattys, S. (2007): Calibrating rhythm: First language and second language studies. J.
Phonetics, 35, (4), 501-522.
Wiget, L., White, L., Schuppler, B., Grenon, I., Rauch, O., and Mattys, S. L. (2010): How stable are
acoustic metrics of contrastive speech rhythm. J. Acoust. Soc. Am., 127, (3) , 1559-1569.
Yoon, T. J. (2010): Capturing inter-speaker invariance using statistical measures of speech
rhythm. Electronic proceedings of Speech Prosody, Chicago/IL, USA.
Travaux neuchâtelois de linguistique, 2013, 59, 109-126
1. Einleitung
für das Deutsche und das Italienische resümiert. Anschliessend stellen wir
die Daten und das Analyseverfahren unserer eigenen empirischen Unter-
suchung vor, um schliesslich im vierten und fünften Abschnitt die für die
beiden formulierten Hypothesen relevanten Resultate zu interpretieren1.
2. Sprachrhythmus
1
Erste Ergebnisse dieses Forschungsprojekts wurden an internationalen Tagungen in Neapel
(Mai 2011) und Rom (Januar 2012) vorgestellt. Zwei Personen waren wesentlich an der
Entstehung der Studie beteiligt: Laura Tramutoli hat die Versuchspersonen kontaktiert und
aufgenommen und einen Teil der der italienischen Sätze segmentiert; This Müller nahm eine
erste Segmentierung der deutschen Sätze vor. Zu Dank verpflichtet sind wir zudem zwei
anonymen Gutachtern für wertvolle Hinweise und Verbesserungsvorschläge.
Stephan SCHMID & Volker DELLWO 111
besucht haben; sie sind aber alle italienischer Abstammung und haben
zumindest einen Elternteil, der aus Italien eingewandert ist. Die fünfte
bilinguale Sprecherin weist hingegen ein 'umgekehrtes' Sprachrepertoire
auf, da sie im Tessin die Schulen besucht hat und zuhause mit ihrer Mutter
Deutsch spricht.
2
SAMPA ("Speech Assessment Methods Phonetic Alphabet") ist ein IPA-basiertes
phonetisches Alphabet, welches nur ASCII-Zeichen verwendet
(http://www.phon.ucl.ac.uk/home/sampa/).
3
Für die automatisierte Analyse wurden vom Zweitautor zwei Praat-Scripts programmiert,
nämlich CVTierCreator und DurationAnalyzer
(http://www.pholab.uzh.ch/leute/dellwo/software.html).
Stephan SCHMID & Volker DELLWO 115
Anhänge 6.1 und 6.2). In der folgenden Darlegung der Resultate gehen wir
nur auf diejenigen Zeitbereichsmasse ein, welche deskriptiv und
inferenzstatistisch signifikante Unterschiede hervorgebracht haben.
4. Resultate
Der genau identische Wert für ∆C im Italienischen ist vielleicht auch darauf
zurückzuführen, dass z.T. das gleiche Sprachmaterial gelesen wurde; trotz-
dem ist das Resultat bei unterschiedlichen Sprechern bemerkenswert und
darf als Evidenz für die Hypothese der Rhythmusklassen angeführt werden.
Dies gilt im wesentlichen auch für die Masse %V und nPVI-V, wo nur gering-
fügige Unterschiede vorliegen. Unklar ist hingegen, worauf der deutliche
Unterschied bei rPVI-C zurückzuführen ist (wobei nicht auszuschliessen ist,
dass unsere Schweizer Sprecher mit einem langsameren Sprechtempo
gelesen haben, was sich auf das nicht normalisierte Rhythmusmass rPVI-C
auswirkt).
Die Lage der einzelnen Boxplots scheint zu bestätigen, dass sich die
Phonotaktik einer Sprache auf die Sprechgeschwindigkeit auswirkt, wenn
man diese als Anzahl Silben pro Sekunde berechnet. In der Tat liegen die
Quadrate des Italienischen bei allen drei Sprechergruppen höher als die
Kreise des Deutschen: da die Silben des Italienischen in der Regel weniger
Segmente enthalten als diejenigen des Deutschen, kann man im
Italienischen durchschnittlich mehr Silben pro Sekunde artikulieren. Eine
ANOVA ergibt bezüglich der Sprechgeschwindigkeit signifikante Effekte für
die bilingualen Sprecher (F[1,99]=30.95, p<0.001) und die italophonen
Sprecher (F[1,99]=408.56, p<0.001). Bei den Sprechern mit Muttersprache
Deutsch ist der Effekt nicht signifikant (F[1,99]=2.7, p=0.1), da sie in der
Zweitsprache Italienisch deutlich langsamer lesen als die Muttersprachler
und die Bilingualen.
Daneben zeigt Abb. 1 aber auch deutliche Unterschiede zwischen den drei
Sprechergruppen. Die Deutschsprachigen artikulieren eine ähnliche Anzahl
Silben in beiden Sprachen, während die Italienischsprachigen am
schnellsten in der L1 und am langsamsten in der L2 lesen, so dass die
Sprechgeschwindigkeiten von Erst- und Zweitsprache weit auseinander
liegen. Am interessantesten für unsere Forschungsfrage erweist sich aber
die Gruppe der Bilingualen, deren Sprechgeschwindigkeit in beiden
Stephan SCHMID & Volker DELLWO 117
4
Das von Dellwo (2010) eingeführte Rhythmusmass ∆Vln basiert auf ∆V und liefert anhand
einer log-normalen Transformation eine Normalverteilung der Daten.
118 Sprachrhythmus bei bilingualen Sprechern
Im Grossen und Ganzen zeigen beide Grafiken (und somit beide Rhythmus-
masse) eine analoge Tendenz, die in einem gewissen Sinne spiegelbildlich
zu der in Abb. 1 dargestellten Sprechgeschwindigkeit verläuft.
Die Variabilität der vokalischen Intervalle ist bei allen Gruppen höher im
Deutschen als im Italienischen, was möglicherweise mit der unter-
schiedlichen phonologischen Struktur der beiden Sprachen zusammen-
hängt. Im Deutschen werden unbetonte Vokale in Dauer und Klangfarbe
systematisch reduziert (z.B. in den Schwa-Silben) und die Vokalquantität
(d.h. die Unterscheidung zwischen langen und kurzen Vokalen) ist in den
betonten Silben distinktiv. Im Italienischen ist die Reduktion von
Stephan SCHMID & Volker DELLWO 119
unbetonten Vokalen viel weniger ausgeprägt und die Dehnung von betonten
Vokalen ist rein allophonisch, d.h. aufgrund einer phonologischen Regel
vorhersehbar (betonte Vokale werden in offener Silbe gedehnt).
Ein Vergleich der drei Sprechergruppen zeigt, dass die Italienisch-
sprachigen beim Lesen der deutschen Sätze viel kleinere Dauer-
unterschiede für aufeinander folgende vokalische Intervalle (und somit
zwischen betonten und unbetonten Vokalen) realisieren als die
Muttersprachler, was man als rhythmische Interferenz der Erstsprache
Italienisch auf die Zweitsprache Deutsch deuten kann. Umgekehrt zeigen
die Deutschsprachigen beim Lesen der italienischen Sätze eine niedrige
vokalische Variabilität als die Muttersprachler, was wohl weniger auf eine
Interferenz der L1 als auf eine 'hyperkorrekte' Realisierung des
Italienischen zurückgeführen ist, dessen Rythmus von den Deutsch-
sprachigen offenbar als ausgeprochen 'silbenzählend' oder gleichförmig
wahrgenommen wird.
Für die hier im Zentrum des Interesses stehenden Bilingualen ergibt sich im
Wesentlichen ein ähnliches Bild wie bei der Sprechgeschwindigkeit (4.2) –
zumindest was das Deutsche anbelangt, wo sowohl die ∆Vln-Werte als
auch die nPVI-V-Werte sich in einem mittleren Bereich zwischen den
Muttersprachlern und den Sprachlernern ansiedeln. Bei den italienischen
Sätzen der Bilingualen trifft dies auch für ∆Vln zu, während ihre nPVI-Werte
diejenigen der Muttersprachler leicht übersteigen. Ingesamt lassen sich
jedoch die Resultate der vokalischen Variabilität (die aus der Sicht des PVI-
Ansatzes das Hauptmerkmal des Sprachrythmus darstellt) im Sinn unserer
Hypothese 2 interpretieren, wonach der Sprachrhythmus von Bilingualen in
beiden Sprachen leicht von der zweiten Sprache beeinflusst wird.
Die Signifikanz dieser Effekte wurde auf die gleiche Weise getestet wie die
Sprechgeschwindigkeitseffekte (siehe oben). Das linear mixed model ergibt
wieder eine zu erwartende Interaktion für beide abhängigen Variabeln
(∆Vln: F[2,147]=7.07, p=0.001; nPVI-V: F[2,147]=4.53, p=0.012). Die
einfachen Effekte im Falle von ∆Vln sind sowohl für die deutsche als auch
die italienische Lesesprache nicht signifikant (p=0.062, respektive
p=0.135); für nPVI-V erreichen sie im Falle von Deutsch Signifikanz
(p=0.046), nicht jedoch im Fall des Italienischen (p=0.131). Die hier
schwach ausgeprägten Effekte können aber durchaus das Resultat der
eher geringen Datenmenge sein. Rein deskriptiv und aufgrund der
gelegentlichen Signifikanz interpretieren wir also auch diese Ergebnisse als
Evidenz dafür, dass sich die bilingualen Sprecher von beiden Mutter-
sprachlergruppen unterscheiden (Hypothese 2).
120 Sprachrhythmus bei bilingualen Sprechern
5
Die ganz allgemeine Frage, inwieweit Zeitbereichsphänomene überhaupt sprecher-
spezifisch sind, wird in einem am Phonetischen Laboratorium angesiedelten SNF-
Forschungsprojekt anhand eines neu erstellten zürichdeutschen Korpus erforscht und kann
an dieser Stelle nicht ausführlich behandelt werden. Immerhin können wir darauf hinweisen,
Stephan SCHMID & Volker DELLWO 123
5. Fazit
Bibliographische Angaben
Dellwo, V., Fourcin, A. & Abberton, E. (2007): Rhythmical classification of languages based on
voice parameters. In J. Trouvain & W. Barry (eds.), Proceedings of the 16th International
Congress of Phonetic Sciences. Saarbrücken, 1129-1132.
Dellwo, V., Gutiérrez Díez, F. & Gavalda, N. (2009): The development of measurable speech rhythm
in Spanish Speakers of English. In Actas del XI Simposio internacional de comunicación
social. Santiago de Cuba, 594-597.
Galloway, R. (2007): Bilinguals’ interacting phonologies? A study of speech production in French-
Swiss German bilinguals. Master Thesis, University of Cambridge.
Grabe, E. & Low, E.L. (2002): Durational Variability in Speech and the Rhythm Class Hypothesis. In
C. Gussenhoven (ed.), Papers in Laboratory Phonology 7. Berlin (Mouton de Gruyter), 515-
546.
Gut, U. (2003): Non-native rhythm in German. In M.J. Solé, D. Recasens & J. Romero (eds.),
Proceedings of the 15th International Congress of Phonetic Sciences. Barcelona, 2437-2340.
— (2009): Non-native speech. A corpus-based analysis of phonological and phonetic properties of
L2 English and German. Frankfurt a.M. (Peter Lang).
Harris, M.J. & Gries, S.Th. (2011): Measures of speech rhythm and the role of corpus-based word
frequency: a multifactorial comparison of Spanish(-English) speakers. International Journal
of English Studies, 11(2), 1-22.
Mairano, P. & Romano, A. (2011): Rhythm metrics for 21 languages. In W.S. Lee & E. Zee (eds.),
Proceedings of the 17th International Congress of Phonetic Sciences. Hong Kong, 1318-
1321.
Missaglia, F. (1999): Contrastive prosody in SLA – an empirical study with adult Italian learners of
German. In J. Ohala et al. (eds.), Proceedings of the 14th International Congress of Phonetic
Sciences. Berkeley (University of California), 551-554.
Munro, M. & Derwing, T. (2001): Modeling perceptions of the accentedness and comprehensibility
of L2 speech: the role of speaking rate. Studies in Second Language Acquisition, 23, 451-468.
Pike, K. (1945): The intonation of American English. Ann Arbor (University of Michigan Press).
Ramus, F., Nespor, M. & Mehler, J. (1999): Correlates of linguistic rhythm in the speech signal.
Cognition, 72, 1-28.
Schmid, S. (2005): Spelling and pronunciation in migrant children: the case of Italian-Swiss
German bilinguals. In V. Cook & B. Bassetti (eds.), Second language writing systems.
Clevedon, Multilingual Matters: 184-211.
— (2009): La prononciation du français par des élèves d’un lycée zurichois. In: Hans-Rudolf
Nüesch (éd.), Galloromanica et Romanica. Mélanges de linguistique offerts à Jakob Wüest.
Tübingen (Francke), 253-268.
Schmid, S. & Dellwo, V. (2012): Caratteristiche temporali del parlato italiano e tedesco: un con-
fronto tra parlanti nativi, non-nativi e bilingui. In M. Falcone & A. Paoloni (a cura di), La voce
nelle applicazioni. Roma (Bulzoni), 159-174.
Tortel, A. & Hirst, D. (2010): Rhythm metrics and the production of English L1/L2. In Proceedings of
Speech Prosody 2010, Chicago [http://speechprosody2010.illinois.edu/papers/100959.pdf].
White, L. & Mattys, S. (2007): Calibrating rhythm: first language and second language studies.
Journal of Phonetics, 35, 501-522.
Wiget, L., White, L., Schuppler, B., Grenon, I., Rauch, O. & Mattys, S.L. (2010): How stable are
acoustic metrics of contrastive speech rhythm?. Journal of the Acoustical Society of
America, 127, 1559-1569.
Withworth, N. (2002): Speech rhythm production in three German-English bilingual families. In D.
Nelson (ed.), Leeds Working Papers in Linguistics and Phonetics, 9, 175-205.
126 Sprachrhythmus bei bilingualen Sprechern
Par son accent étranger, un locuteur/une locutrice révèle son origine, sa langue
maternelle. Ainsi, la majorité des Suisses alémaniques seront reconnus comme tels,
en parlant une langue seconde. A partir de cet accent 'suisse allemand', est-ce qu’on
pourra aussi deviner la région dialectale d’où provient le locuteur/la locutrice? Et, si la
perception humaine permet l’identification de ces subtilités, quels en sont les indices
pertinents dans le signal linguistique? Les expériences de perception conduites avec
nos sujets suisses alémaniques démontrent, dans un premier temps, que des
différences d’accent dues à un dialecte particulier peuvent être perçues non
seulement dans du matériel linguistique allemand standard, mais aussi quand lesdits
locuteurs parlent français. Une expérience ultérieure explore l’importance des
données temporelles, ou rythmiques, pour l’identification d’un accent étranger.
1. Introduction
(How) does the foreign accent of a speaker allow us to take guesses about
his/her origin? The present article addresses these two questions by means
of two perception experiments: first, we investigate whether the linguistic
origin of L2 speakers can be identified perceptually at all. If so, we further
explore how listeners identify the origin of foreign accents, i.e. based on
which acoustic cues.
In certain situations it is typically easy for listeners to identify the L1 of an
L2 speaker. If we think of L2 German, for example, the use of uvular trills for
German /r/ and nasal vowels often leads listeners to identify a French
accent. Likewise, the use of alveolar approximants for German /r/ and the
unrounding of front rounded vowels will often point towards an English
accent. Typically, such cues for accent identification result from the
transfer of certain phonetic characteristics of the speaker’s L1 to his L2
speech. Listeners can thus typically discriminate English-accented German
speech from French-accented German speech (cf. Boula de Mareuïl et al.,
2008, for comparable language constellations). In other situations however,
it might be more difficult to identify or discriminate foreign accents. First,
French and English in the above examples are two distinct languages that
differ in many aspects. Could listeners also recognise foreign accents that
stem from more closely related varieties, like dialects? Second, there are
different kinds and combinations of cues that create the impression of
particular accents (cf. Cunningham-Andersson & Engstrand, 1987). The
above examples present segmental cues for accent identification. Do other
128 (How) can listeners identify the L1 in foreign accented L2 speech?
cues, for example prosodic cues, also allow listeners to identify foreign
accents?
In our first experiment we examine whether foreign accents stemming from
closely related varieties can be identified perceptually. Closely related
varieties are found e.g. in German-speaking Switzerland, a region well-
known for having a diverse dialectal landscape in a relatively small space.
We investigate whether the dialectal origin of Swiss German speakers (from
Bern and St. Gallen) is perceivable in L2 speech of these speakers, e.g. L2
Standard German or L2 French.
The Standard German variety spoken in Switzerland
(Schweizerhochdeutsch) is not a real L2 for Swiss German dialect speakers;
it is better described as an "extended" version of their L1 and its
acquisition is considered to be an "erweiterter Erstspracherwerb mit
einigen Zügen von Zweitspracherwerb" (Häcki Buhofer & Burger, 1998: 137).
French, however, is taught as a first L2 in the majority of Swiss German
primary schools. Swiss German accented French is commonly referred to
as français fédéral (cf. Kolly, 2010). Swiss German as well as Swiss French
listeners were tested in this experiment: Swiss German listeners heard
Standard German and French stimuli and had to indicate the dialectal
origin of the speakers (open response). Swiss French listeners heard
French stimuli and had to indicate whether the speaker was from Bern or
from St. Gallen (cf. 2.1.3)1.
We expect that Swiss German listeners will more easily recognise dialectal
accents than Swiss French listeners. Swiss German listeners are used to
hearing people with different dialectal backgrounds talk Standard German
or French (e.g. at school). It has been shown that they can recognise Swiss
German dialects as well as dialectal accents in Standard German speech
above chance when confronted with a multiple choice task (cf. Guntern,
2011, including 8 Swiss dialect regions). Swiss French listeners naturally
have less contact with Swiss German-accented speech and are not
expected to have much knowledge about the Swiss German dialectal
landscape. Even in Fribourg/Freiburg, the bilingual town where our
listeners come from, Swiss French speakers’ contact with Swiss German
dialects is rather small (cf. Muller, 1998, for the situation in Biel/Bienne, a
comparable bilingual Swiss town with a proportionally larger Swiss German
population). Given the difficulties, the lack of interest and the negative
attitudes that go with the acquisition of German for many Swiss French
people (cf. Muller, 1998; Fuchs & Werlen, 1999; Kolly, 2011), the hypothesis
that this group of listeners could recognize particular Swiss German
1
Results from this experiment are also presented in Kolly (2010) and Kolly (2013) in German,
where more weight is given to the particularities of each speaker. The present article
provides a more general approach to the question whether dialectal accents can be
recognised perceptually.
Marie-José KOLLY & Volker DELLWO 129
If listeners are familiar with the native language of a speaker, they are often
able to identify this native language only by hearing the speaker’s L2
speech (cf. Boula de Mareuïl et al., 2008). Can listeners also differentiate
between dialectal foreign accents, e.g. between Bern dialect-accented
Standard German/French and St. Gallen-accented Standard
German/French? Our Bern speakers come from the city of Bern and our St.
Gallen speakers from the city of St. Gallen. The varieties spoken in the
cities of Bern and St. Gallen stand for a western and an eastern Swiss
German dialect. The two varieties differ in a number of linguistic and, in
particular, phonetic variables (cf. Kolly, 2010, 2013).
2.1 Method
2.1.1 Subjects
2.1.2 Material
Speech was collected from eight speakers: four native speakers of Bern
Swiss German and four native speakers of St. Gallen Swiss German (two
males and two females each). All speakers, as well as their parents, grew
up and lived in their respective cities and all of them had higher education,
i.e., comparable proficiency in Standard German and French. Speakers’ age
ranged between 21 and 28. During the perception experiment, speakers
were rated for accent degree on a five-point scale for a related
investigation (cf. Kolly, 2010, 2011).3 Accent degree ranged between 2.77
and 3.92 in Standard German speech and between 2.44 and 4.06 in French
speech.
Speakers read a short text in Standard German and French (the fable The
Northwind and the Sun, cf. The International Phonetic Association,
1999/2003: 81, 89). They also spoke spontaneously about their morning
routine. Before the recordings, speakers did not familiarise themselves
with the material. Recordings took place in a quiet room in their respective
home or office, with a Fostex FR-2LE solid-state recorder (sampling rate of
48kHz, 16-bit quantisation) and a Sennheiser clip-on MKE 2p-c microphone.
We thus collected 4 samples per speaker: read and spontaneous speech in
Standard German and in French (mean duration: 40 s for read German
samples, 37 s for spontaneous German samples, 53 s for read French
samples, 51 s for spontaneous French samples). All of those samples were
used as stimuli to construct a Standard German and a French perception
experiment, containing 16 stimuli each (8 speakers * 2 speaking styles).
2
Tertiary institution.
3
1 = no accent; 2 = rather no accent; 3 = slight accent; 4 = clearly perceivable accent; 5 =
strong accent.
132 (How) can listeners identify the L1 in foreign accented L2 speech?
2.1.3 Procedure
Swiss German listeners were presented with the stimuli of the Standard
German as well as the French perception experiment (i.e., 32 stimuli) in a
classroom at Bern resp. Zurich University. Swiss French listeners were
presented with the French perception experiment only (i.e., 16 stimuli), in a
classroom at the School of Business Administration in Fribourg. Stimuli
were presented over loudspeakers. They were presented in two blocks,
where the Standard German experiment was conducted before the French
experiment. Within the blocks, stimuli were presented in a randomised
order.
Listeners submitted their responses in a paper and pencil setting. For each
stimulus, listeners had to guess the dialectal origin of the speaker.
Concerning this task, two options were considered: an alternative forced
choice task, where listeners have to attribute each stimulus to either a
Bern or a St. Gallen dialectal accent; and an open response task, where
listeners have no knowledge about which or how many different Swiss
dialectal accents are represented in the stimuli and take their guesses in a
completely open manner. Therefore, a pilot experiment was conducted with
Swiss German as well as Swiss French listeners. Some listeners were
presented the stimuli with an alternative forced choice task, others with an
open question. The pilot showed a ceiling effect for Swiss German listeners
in the alternative forced choice task. The open response task was thus
chosen for this group of listeners. The Swiss French listeners, however,
were not able to perform the open response task in the pilot experiment: in
most cases, all fields were left blank. Therefore, the alternative forced
choice task was chosen for Swiss French listeners. This difference in tasks
depending on listener group entails the need for two different analysis
methods.
The forced alternative choice task used for the Swiss French listeners
represents the typical Bernoulli trial with two possible outcomes: success
(correct identification) and failure (false response). We thus applied one-
tailed binomial tests with an alpha-level of 0.05. For between-condition
comparisons we used paired Wilcoxon signed rank tests, since the small
sample does not allow the assumption of normally distributed data. The
open question used for the Swiss German listeners, however, yields a
variety of different responses that cannot be analysed as easily. Results
are thus presented in a descriptive framework. Responses were
categorised according to a careful analysis of the Swiss phonetic
landscape (for details cf. Kolly 2010, 2013). We have created three
decreasingly "strict" categories to be used for descriptive results, as
presented in Table 1 and illustrated in Figure 1. A distinct categorisation of
continuous dialectal spaces, as used here, is obviously an artificial
Marie-José KOLLY & Volker DELLWO 133
Figure 1: Categories "narrow", "middle" and "broad" for the west/east contrast (thick line), coded
by increasingly light shades of grey
134 (How) can listeners identify the L1 in foreign accented L2 speech?
2.2 Results
Descriptive results from the perception experiment with Swiss German
listeners are presented in figures 2–4. The id-sectors in the pie charts are
based on the "middle" category described above. Added to the sectors grey
area, they represent the "broad" category, i.e. listeners’ ability to identify a
western/eastern dialectal accent in the speech material (see section 2.1.3).
Figure 2 shows the identification rates for all speakers; Figures 3 and 4
present the same for Bern and St. Gallen speakers separately.
Figure 2: Average recognition rates over all stimuli per language and speaking style; id = correctly
identified as being from BE/FR/SO (Bern speakers) or north-eastern Switzerland (St. Gallen
speakers); id + grey area = correctly identified as being from western (Bern speakers) or eastern
(St. Gallen speakers) Switzerland; not id = not correctly identified
grey area; 9%
Figure 3: Average recognition rates over all St. Gallen-accented stimuli per language and speaking
style; id = correctly identified as being from north-eastern Switzerland; id + grey area = correctly
identified as being from eastern Switzerland; not id = not correctly identified
Figure 4: Average recognition rates over all Bern-accented stimuli per language and speaking
style; id = correctly identified as being from BE/SO/FR; id + grey area = correctly identified as
being from western Switzerland; not id = not correctly identified
4
Speaker-specific results and a discussion of the reasons why particular speakers were
easier or more difficult to identify are presented in Kolly (2010, 2013).
Marie-José KOLLY & Volker DELLWO 137
2.3 Discussion
We have tested whether Swiss German and Swiss French listeners are able
to perceive the dialectal origin of Bern and St. Gallen speakers in accented
Standard German and French L2 speech. Because of their different
experience with Swiss German-(accented) speech, different response tasks
were designed for the Swiss German and the Swiss French listeners (cf.
2.1.3). Therefore, two different methods of analysis had to be used and
results have to be read with the experimental procedure in mind: Swiss
German listeners had no knowledge of which and how many Swiss German
dialectal accents were represented in the material (open response) – an
alternative forced choice task would obviously have yielded different
identification scores. Swiss French listeners had to respond in an
alternative forced choice task. Results show that the dialectal accents are
recognised not only in the Standard German, but also in the French speech
material.
The hypothesis that dialectal accents of Swiss German speakers can be
identified in Standard German speech is confirmed for the two dialects at
hand. This result is in line with Guntern (2011). On average, dialectal
accents in Standard German speech are correctly identified by about 50%
of our Swiss German listeners when considering the above defined
"middle" category (i.e., accepted responses: dialects of Bern, Solothurn,
Fribourg for Bern accented stimuli; north-eastern Switzerland for St. Gallen
accented stimuli). Dialectal accents in French stimuli were correctly
identified by 30% of the Swiss German listeners; they were significantly
discriminated by Swiss French listeners.
We thus note that Swiss German listeners reach higher recognition scores
when hearing dialectal accents in Standard German speech than in French
speech. This was to be expected, since Swiss German listeners have more
experience Standard German spoken by Swiss German dialect speakers
than with French spoken by Swiss German dialect speakers.
The result for the Swiss German listener group is remarkable, as very subtle
accent distinctions could be recognised. However, it is in line with the fact
that dialects occupy an important role for the identity of many Swiss
German people and are a frequent topic of conversation among them. Swiss
dialects (as opposed to Standard German) are the common variety used in
conversational situations and, other than dialects in other linguistic regions,
they are the prestige, not the stigma variety in the Swiss diglossic situation
(cf. Hotzenköcherle, 1984; Werlen, 2000; Haas, 2004; Christen, 2010).
However, given the literature about the contact situation between Swiss
French and Swiss German people as well as the attitudes of many Swiss
French people towards the acquisition of German (cf. 1, Muller, 1998; Fuchs
138 (How) can listeners identify the L1 in foreign accented L2 speech?
& Werlen, 1999), the result for the Swiss French listener group is even more
remarkable.
The distinction of a more global western or eastern dialectal accent in
Standard German speech is recognised by almost 60% of the Swiss German
and 40% of the Swiss French listeners. This illustrates the prominence and
the perceptual salience of an east/west divide in the Swiss dialectal and, in
particular, phonetic landscape. Compared to dialect recognition rates of
about 36% as described by Bauvois (1996: 300f.) for regional Belgian
French accents, many of the above described rates are surprisingly high.
Bauvois (1996) uses a similar method since her listening task involves an
open question. A comparison with further accent perception studies like
the ones described by Boula de Mareuïl et al. (2008), Guntern (2011) and
others is delicate because of their different experimental task (cf. 2.1.3).
Both accents reach similar recognition scores in Standard German speech;
in French speech, however, the Bern dialectal accent is easier to identify
than the St. Gallen accent, for Swiss German listeners. This is not the case
for Swiss French listeners: no significant difference in recognition rates
between the two accents is observed. The result observed in the Swiss
German listener group may have to do with the fact that the St. Gallen
dialect shares more phonetic features with French than the Bern dialect
(typically vowel qualities and the /r/-sound, see Kolly, 2010, 2013). We
hypothesise that a Bern accent in French speech sounds more salient than
a St. Gallen accent and is thus easier to recognise. However, this result is
bound to the "middle" category presented in the figures. If we take look at
the "narrow" category that only accepts responses containing "Bern" or "St.
Gallen", the Bern accent yielded higher recognition scores: Bern stimuli
often triggered the precise response "Bern", whereas the St. Gallen stimuli
mostly provoked responses like "Nordostschweiz" ‘north-eastern
Switzerland’ or "Ostschweiz" ‘eastern Switzerland’. Here we have to
indicate the overrepresentation of listeners from Bern University which
might entail a bias: listeners perceive more differences in varieties that are
linguistically close to their own – "aus der Ferne dagegen mögen
Sprecherinnen und Sprecher aus dem Schaffhausischen und dem Thurgau
recht ähnlich in den Ohren klingen, was die Betroffenen selbst natürlich
ganz anders sehen..." (Christen, 2005: 21). A further explanation is that the
(dialectologically very diverse) canton of Bern seems to represent a single
dialect in the mental representations of many Swiss Germans, whereas the
(north-)eastern dialect varieties are perceived as a unity.5
Accents are easier to identify in read than in spontaneous speech, for Swiss
German listeners. The result is in line with Kolly (2011), who found that read
5
Cf. Christen (2010: 277–278) for the special status of the category 'eastern Switzerland' that
is often used in a similar way as canton names for referring to dialects.
Marie-José KOLLY & Volker DELLWO 139
salience of three types of temporal cues in relation with the foreign accents
at hand.
In noise vocoded speech, spectral information is removed from the signal
and replaced by band-limited noise. The resulting signal is strongly
degraded in the frequency-domain and does not contain any vocal fold
vibration;
• durational characteristics of voicing are absent from the signal
• segmental durations are not or hardly perceivable
• subjects’ attention is drawn to amplitude envelope temporal
characteristics like syllable beats: so-called low-frequency temporal
cues.
In monotone 1-bit requantised speech, the amplitude of every sample is set
to either 0 or -1. The resulting signal is strongly degraded in the frequency-
domain and does not contain any intonational information;
• amplitude information is absent from the signal
• subjects’ attention is drawn to segment durations and the durational
variability of unvoiced and voiced intervals: so-called high-frequency
temporal cues.
In monotone sasasa-speech based on voiced and unvoiced intervals, every
unvoiced sound is replaced with a synthesised [s] and every voiced sound
with a synthesised [a]. The resulting signal does not contain any original
frequency-domain information;
• original amplitude information is absent from the signal
• segmental durations are not perceivable since voiced/unvoiced
sounds have been merged to voiced/unvoiced intervals
• subjects’ attention is drawn to cues about voice timing only.
The signal degraded sentences are unintelligible to the listeners. However,
if presented with the corresponding lexical information, listeners learn to
parse degraded speech (cf. Davis et al., 2005).
3.1 Method
3.1.1 Subjects
Our between-subject design involved three groups of ten listeners each, all
of which were native speakers of Swiss German dialects. Most of them
were students from Zurich University, some students from other Swiss
Universities. The subjects were assumed to have similar knowledge of
French and English due to school education in Switzerland: in Swiss
German primary schools, French is learned as a first and English as a
second L2. Due to their higher education, our listeners were also assumed
to have a comparable experience with French- and English-accented
Standard German. In a multilingual country like Switzerland and, in
Marie-José KOLLY & Volker DELLWO 141
3.1.2 Material
Speech was collected from twelve speakers: six native speakers of French
and six native speakers of English (three males and three females each). All
the French speakers grew up and live in the French speaking part of
Switzerland (five in the canton of Fribourg, one in the canton of Vaud). The
English speakers grew up in the US or in Canada, one female speakers in
the UK; all of them were students or staff members of Zurich University.
Speakers’ age ranged between 23 and 56. Their self-estimated proficiency
in German ranged from B1 to B2 for the French speakers and from A1 to B2
for the English speakers (cf. Council of Europe, 2011).
Speakers read a list of 19 German sentences (cf. Appendix). Sentences
were taken from a list of Italian sentences used by Nazzi et al. (1998) and
translated to German. Before the recording, they familiarised themselves
with the material by reading the sentences aloud. Speakers were recorded
in a quiet room at Zurich University or in their respective homes with a
Fostex FR-2LE solid-state recorder (sampling rate of 48kHz, 16-bit
quantisation) and a Sennheiser clip-on MKE 2p-c microphone. If filled
pauses occurred during a sentence, speakers repeated the sentence
spontaneously or, if not, they were asked to do so. nine sentences per
speaker were chosen for each of three experimental conditions to contain
108 stimuli. We have used a different combination of sentences from each
speaker such that each of the 18 used sentences appears six times in the
experiment: three times spoken native speakers of French and three times
by native speakers of English.
Manipulated stimuli were created using Praat signal processing software
(Boersma & Weenink, 2012).6
• Noise vocoded speech was obtained by bandpass filtering each
sentence between 50 Hz and 8000 Hz. The signal was then divided
into 6 logarithmically spaced frequency bands by bandpass filtering
with cutoff frequencies at 50 Hz, 116.5 Hz, 271.4 Hz, 632.5 Hz, 1473.6
Hz, 3433.5 Hz and 8000 Hz. These cutoff frequencies were
subsequently used to filter white noise in order to obtain six noise
bands. The amplitude envelope of each speech band was extracted
by half-wave rectification and low-pass filtering at 10 Hz. Each
6
Praat scripts for delexicalisation were written by the second author and are available at
http://www.pholab.uzh.ch/leute/dellwo/software.html.
142 (How) can listeners identify the L1 in foreign accented L2 speech?
3.1.3 Procedure
Three groups of ten native Swiss German listeners were presented the 108
stimuli in a randomised order on a laptop computer. Listeners were tested
in a quiet room at university or in their own homes. Groups of ten listeners
each were presented either noise vocoded, 1-bit-requantised or sasasa-
speech over high-quality earphones. For each stimulus, the corresponding
sentence was presented visually on the computer screen about two
seconds preceding the acoustic stimulus and until the acoustic
presentation ended. Thus, subjects had access to lexical information while
listening to the delexicalised stimulus and could concentrate on the accent
cues relevant for the research question. For each stimulus listeners had to
indicate whether they had heard German with a French or an English accent
by clicking on the corresponding button, using a computer interface
created in Praat.
As a sensitivity measure we have chosen d’ from signal detection theory (cf.
Swets & Green, 1966). The measure d’ obtains the sensitivity of each
listener, eliminating response bias, where perfect sensitivity (i.e., perfect
discrimination of both types of signals) starts at a d’-value of 4 and a d’-
value of 0 indicates sensitivity at chance level.
3.2 Results
Figure 5 as well as one-sample t-tests based on d’ show that French and
English accents could be identified above chance based on 6-band noise
Marie-José KOLLY & Volker DELLWO 143
vocoded (p < 0.001) and 1-bit-requantised (p < 0.001) stimuli, but not based
on sasasa-speech.
We further computed a univariate ANOVA which shows a significant effect
between conditions (F[2, 30] = 50.58; p < 0.001). Tukey post-hoc tests show
that all group comparisons are highly significant (p < 0.001). In particular,
recognition scores were higher in 1-bit requantised than in 6-band noise
vocoded speech.
2.5
2.0
1.5
1.0
d'
0.5
0.0
−0.5
−1.0
nv 1bit sasasa
3.3 Discussion
We have tested whether Swiss German listeners can distinguish French-
accented German from English-accented German when presented with
speech signals that are heavily degraded in the frequency-domain. An
alternative forced choice task was conducted with three groups of listeners,
each presented with a different type of delexicalised speech. Signal types
each contained a different type of durational characteristic. Results show
that listeners can discriminate English- from French-accented German
based on primarily temporal cues. Further, listeners’ performance depends
essentially on the type of delexicalisation applied, that is, on the type of
temporal characteristic conveyed by the particular signal.
144 (How) can listeners identify the L1 in foreign accented L2 speech?
The experiments reported in the present article show that (a) listeners can
discriminate very subtle accent distinctions and (b) the time-domain is
relevant for the recognition of such foreign accents.
Acoustic correlates of (a) were assumed to lie in segmental as well as in
prosodic aspects, since recent research stresses prosodic differences
between Swiss German dialects (cf. e.g. Leemann & Siebenhaar, 2008;
Leemann et al., 2012; Leemann, 2012). As prosodic deviances seem to be a
widely discussed feature of foreign accents, we investigated temporal and
rhythmic cues for foreign accent identification and showed that speech can
be strongly degraded in the spectral domain and still provide enough cues
for listeners to identify a French or an English accent in German sentences.
Furthermore, we have illustrated that the different types of durational cues
contained in the different types of delexicalised speech yield different
identification rates, with segment durations being the most effective cue to
the accent recognition task conducted for the present paper.
Future research will further explore the amount of frequency-domain and
time-domain information needed for listeners to recognise foreign accents.
To this end, we use different types of signal manipulations such as noise
vocoded speech with different numbers of bands. We expect these further
conditions to tell us more about the perceptual processing of foreign
accented speech and, in particular, about the possibility of identifying
foreign accents based on temporal characteristics only.
Marie-José KOLLY & Volker DELLWO 145
Acknowledgements
We would like to thank all our speakers and listeners for their contribution
to this article. Further we thank Stephan Schmid and Adrian Leemann
(Experiment 2) and Elke Hentschel (Experiment 1) for helpful comments on
the experiment design as well as two anonymous reviewers for their
valuable feedback on a first version of this manuscript. We also thank
Stephan Schmid for the translation of Italian sentences. Part of this work
(Experiment 2) was supported by the Swiss National Science Foundation
(SNF; grant number: 100015_135287).
Bibliography
Arvaniti, Amalia (2012): The usefulness of metrics in the quantification of speech rhythm. In
Journal of Phonetics, 40, (2), 351–373.
Atterer, M. & Ladd, R. (2004): On the Phonetics and Phonology of ‘Segmental Anchoring’ of F0.
Evidence from German. In Journal of Phonetics, 32, (2), 177–197.
Bachmann, A. (1908): [Schweizer-]Sprachen und Mundarten. In Knapp, C./Borel, M. (eds.),
Geographisches Lexikon der Schweiz. Vol. 5. Neuchâtel (Attinger), 58–76.
Bauvois, C. (1996): Parle-moi, et je te dirai peut-être d'où tu es. In Revue de Phonétique Appliquée,
121, 291–309.
Boersma, P. & Weenink D. (2012): Praat: doing phonetics by computer. (http://www.praat.org).
Boula de Mareuïl, P./Vieru-Dimulescu, B. (2006): The contribution of prosody to the perception of
foreign accent. Phonetica, 63, (4), 247–267.
Boula de Mareuïl, P., Vieru-Dimulescu, B., Woehrling, C. & Adda-Decker, M. (2008): Accents
étrangers et régionaux en français. Caractérisation et identification. In Traitement
Automatique des Langues, 49, (3), 135–163.
Bush, C. N. (1967): Some Acoustic Parameters of Speech and Their Relationships to the Perception
of Dialect Differences. TESOL Quarterly, 1, (3), 20–30.
Christen, H. (2005): 'Tour de Suisse' der Deutschschweizer Dialekte. In Forum Helveticum (ed.),
Dialekt in der (Deutsch)Schweiz – Zwischen lokaler Identität und nationaler Kohäsion. Le
dialecte en Suisse (alémanique) – entre identité locale et cohésion nationale. Lenzburg
(Forum Helveticum), 21–25.
— (2010): Was Dialektbezeichnungen und Dialektattribuierungen über alltagsweltliche
Konzeptualisierungen sprachlicher Heterogenität verraten. In Anders, C. A., Hundt, M. &
Lasch, A. (eds.), "Perceptual dialectology". Neue Wege der Dialektologie. Berlin/New York
(de Gruyter), 269–290.
146 (How) can listeners identify the L1 in foreign accented L2 speech?
Council of Europe (2011): Common European Framework of Reference for Languages: Learning,
Teaching, Assessment. (http://www.coe.int/t/dg4/linguistic/Source/Framework_EN.pdf.
Cunningham-Andersson, U. & Engstrand, O. (1987): Perceived strength and identity of foreign
accent in Swedish. In Phonetica, 46, 138–154.
Davis, M./Johnsrude, I./Hervais-Adelman, A./Taylor, K./McGettigan, C. (2005): Lexical Information
Drives Perceptual Learning of Distorted Speech: Evidence From the Comprehension of
Noise-Vocoded Sentences. Journal of Experimental Psychology, 134, (2), 222–241.
Dellwo, V. (accepted): Acoustic correlates of speech rhythm: Are consonantal and vocalic intervals
or syllables the more salient units?. To appear in: Van de Vijver, R. & Vogel, R. (eds.), Rhythm
in Phonetics, Grammar and Cognition Berlin (De Gruyter).
Flege, J. E. (1992): Speech Learning in a Second Language. In Ferguson, C. A., Menn, L. & Stoel-
Gammon, C. (eds.), Phonological Development. Models, Research, Implications. Maryland
(York Press), 565–604.
Fourcin, A. & Dellwo, V. (2009): Rhythmic classification of languages based on voice timing.
London (UCL Eprints) (http://eprints.ucl.ac.uk/15122/).
Fuchs, G./Werlen, I. (1999): Zweisprachigkeit in Biel-Bienne. Untersuchung im Rahmen des Bieler-
Bilinguismus-Barometers 1998. Im Auftrag des Forums für Zweisprachigkeit Biel-Bienne.
Bericht erstellt auf Basis der Daten des GfS-Forschungsinstituts Bern. Biel (Stiftung Forum
für die Zweisprachigkeit).
Green, D. M. & Swets, J. A. (1966): Signal detection theory and psychophysics. New York (Wiley).
Guntern, M. (2011): Erkennen von Dialekten anhand von gesprochenem Schweizerhochdeutsch. In
Zeitschrift für Dialektologie und Linguistik, 78, 155–187.
Haas, W. (1985): Sprachgeographie und Variationstheorie. In Werlen, I. (ed.), Probleme der
schweizerischen Dialektologie. 2. Kolloquium der Schweiz. Geisteswissenschaftlichen
Gesellschaft. Problèmes de la dialectologie suisse. 2e Colloque de la Société suisse des
sciences humaines. Fribourg (Editions Universitaires Fribourg), 95–108.
— (2000): Die deutschsprachige Schweiz. In: Bickel, H. & Schläpfer, R. (Hrsg.): Die viersprachige
Schweiz. Aarau/Frankfurt am Main/Salzburg (Sauerländer), 57–138.
— (2004): Die Sprachsituation der deutschen Schweiz und das Konzept der Diglossie. In: Christen,
H. (ed.), Dialekt, Regiolekt und Standardsprache im sozialen und zeitlichen Raum. Beiträge
zum 1. Kongress der Internationalen Gesellschaft für Dialektologie des Deutschen,
Marburg/Lahn 5.–8. März 2003. Wien (Praesens), 81–110.
Häcki Buhofer, A./Burger, H. (1998): Wie Deutschschweizer Kinder Hochdeutsch lernen. Der
ungesteuerte Erwerb des gesprochenen Hochdeutschen durch Deutschschweizer Kinder
zwischen sechs und acht Jahren. Stuttgart (Steiner). (= Zeitschrift für Dialektologie und
Linguistik; Beihefte 98).
Hirschfeld, U. & Trouvain, J. (2007): Teaching Prosody in German as a Foreign Language. In
Trouvain, J. & Gut, Ulrike (eds.), Non-Native Prosody. Phonetic Description and Teaching
Practice, Berlin/New York (de Gruyter), 171–187.
Hotzenköcherle, R. (1961): Zur Raumstruktur des Schweizerdeutschen. In Zeitschrift für
Mundartforschung, 28/3, 207–227.
— (1984): Die Sprachlandschaften der deutschen Schweiz. Ed. by Bigler, N. & Schläpfer, R. Aarau
etc. (Sauerländer).
Jilka, M. & Möhler, G. (1998): Intonational Foreign Accent. Speech Technology and Foreign
Language Teaching. In Proceedings of Speech Technology in Language Learning, 25.–
27.05.1998, Marholmen, Sweden, 113–116.
Kolly, M.-J. (2010): Regionale Spuren in "Français Fédéral" und "Schweizerhochdeutsch". Eine
Untersuchung im Schnittfeld von Akzent und Einstellung bei Schweizer Dialektsprechern.
Master Thesis, University of Bern.
Marie-José KOLLY & Volker DELLWO 147
— (2011): Weshalb hat man (noch) einen Akzent? Eine Untersuchung im Schnittfeld von Akzent
und Einstellung bei Schweizer Dialektsprechern. In Linguistik online, 50/6, 43–77.
— (2013): Akzent auf die Standardsprachen: Regionale Spuren in "Français Fédéral" und
"Schweizerhochdeutsch". In Linguistik online, 58/1, 37-76.
Leemann, A. (2012): Swiss German Intonation Patterns. Amsterdam/Philadelphia (Benjamins).
Leemann, A. & Siebenhaar, B. (2008): Perception of Dialectal Prosody. In Proceedings of
Interspeech 2008, Brisbane 22.–26.9.2008, 524–527.
Leemann, A., Dellwo, V., Kolly, M.-J. & Schmid, S. (2012): Rhythmic variability in Swiss German
dialects. In Proceedings of Speech Prosody, 21.-25.5.2012, Shanghai, PRC.
Lloyd James, A. (1929): Historical Introduction to French Phonetics. London (ULP).
Missaglia, F. (2007): Prosodic Training for Adult Italian Learners of German. The Contrastive
Prosody Method. In Trouvain, J./Gut, U. (eds.), Non- Native Prosody. Phonetic Description
and Teaching Practice, Berlin/New York (de Gruyter). 236– 258.
Muller, N. (1998): "L’allemand, c’est pas du français!". Enjeux et paradoxes de l’apprentissage de
l’allemand. Neuchâtel/Lausanne (Institut de Recherche et de Documentation
Pédagogique/Loisirs et Pédagogie).
Ramus, F. & Mehler, J. (1999): Language identification with suprasegmental cues: A study based
on speech resynthesis. In Journal of the Acoustical Society of America, 105, (1), 512–521.
Ramus, F./Nespor, M. & Mehler, J. (1999): Correlates of linguistic rhythm in the speech signal. In
Cognition, 73, 265–292.
Shannon, R. V., Zeng, F.-G., Kamath, V., Wygonski, J. & Ekelid, M. (1995): Speech recognition with
primarily temporal cues. In Science, 270, 303–304.
Siebenhaar, B. (1994): Regionale Varianten des Schweizerhochdeutschen. Zur Aussprache des
Schweizerhochdeutschen in Bern, Zürich und St. Gallen. In Zeitschrift für Dialektologie und
Linguistik, 61, 31–65.
Sprachatlas der deutschen Schweiz (SDS). Ed. by Hotzenköcherle, R. et al. 1962–2003. Bern (I-VI),
Basel: Francke (VII-VIII).
Tajima, K./Port, R./Dalby, J. (1997): Effects of temporal correction on intelligibility of foreign-
accented English. In Journal of Phonetics, 25, 1–24.
The International Phonetic Association (1999/2003): Handbook of the International Phonetic
Association. A Guide to the Use of the International Phonetic Alphabet. Cambridge
(Cambridge University Press).
Van Els, T./De Bot, K. (1987): The role of intonation in foreign accent. In Modern Language Journal,
71, (2), 147–155.
Werlen, I. (ed.)(2000): Der zweisprachige Kanton Bern. Bern/Stuttgart/Wien (Haupt).
White, L./Mattys, S. L./Wiget, L. (2012): Language categorization by adults is based on sensitivity
to durational cues, not rhythm class. In Journal of Memory and Language, 66, (4), 665–679.
Wiget, L., White, L, Schuppler, B., Grenon, I., Rauch, O., Mattys, S. L. (2010): How stable are
acoustic metrics of contrastive speech rhythm? In Journal of the Acoustical Society of
America, 127, 1559–1569.
148 (How) can listeners identify the L1 in foreign accented L2 speech?
Appendix
Humans are able to speak in synchrony with each other. The present study
investigated whether four temporal correlates of speech rhythm (%V, nPVI-C, nPVI-V,
nPVI-CV) adapt when speaking in synchrony with a recording. The experimental
setting consisted of three conditions: Eight participants read three sentences out
loud (read), four of them were asked to speak in synchrony (sync) with the same
sentences recorded by the four others (target). Correlation analysis was carried out
between the rhythmic measurements of the sync condition and the two others
(read/target). Results revealed that there are typically strong significant correlations
between speech rhythm of the read and synchronous speech. The impact on speaker
identification, in particular under forensic circumstances, is discussed.
1. Einführung
(Dellwo et al., 2007). Das bedeutet Stimmen können nicht nur zwischen
unterschiedlichen Sprechern (Inter-Sprecher-Variabilität), sondern auch
für einen einzelnen Sprecher (Intra-Sprecher-Variabilität) unterschieden
werden und somit differierende Ergebnisse in einer spektralen Analyse
hervorbringen. Zur Veranschaulichung können einfache Beispiele dienen:
Der emotionale Zustand eines Sprechers (z.B. Angst, Wut etc.) oder eine
einfache physische Veränderung (z.B. beim Sprechen mit einem Stift
zwischen den Lippen) kann bereits signifikante Abweichungen hervorrufen.
Da Aufnahmen von zu identifizierenden Personen (z.B. Tatverdächtigen)
nicht immer unter optimalen und vergleichbaren Bedingungen entstehen,
werden schnell die Schwächen einer einseitigen, spektralen
Sprecheridentifizierung erkennbar. In den vergangenen Jahren wurden
daher Versuche unternommen, die Methoden der Sprecheridentifizierung
zu verbessern. Es hat z.B. Bemühungen gegeben, Regelmässigkeiten und
Zusammenhänge in der Variabilität (Nolan et al., 2009) und dynamische und
statische Darstellungsformen der spektralen Stimmcharakteristika zu
finden (McDougall, 2007a, 2007b).
Die hier präsentierte Studie verfolgt den Ansatz, die forensische
Sprecheridentifizierung um den Parameter Zeit zu erweitern. Hierzu sollen
vokalische und konsonantische Intervalle von Äusserungen darauf
untersucht werden, ob sie spezifische Informationen über einen Sprecher
transportieren. Diese Überlegung ist durchaus begründet. Die Produktion
von Sprache geschieht über eine komplexe motorische Steuerung einzelner
Muskelbewegungen durch das Gehirn. Somit besteht eine Analogie zur
Steuerung anderer Muskelbewegungen, wie z.B. der motorischen Kontrolle
über Arme und Beine. Und eben diese Bewegungsabläufe von Gliedmassen
können in ihrer zeitlichen Abfolge für einen Menschen spezifisch sein
(Cunado et al., 2003; Foster et al., 2003). Von dieser Analogie ausgehend
besteht Anlass zu der Vermutung, dass es sich ganz ähnlich mit der
ebenfalls muskulär gesteuerten Produktion einer Stimme verhalten könnte.
Weitere Hinweise darauf finden sich in den Arbeiten von McDougall (2007a,
2007b). Auch sie erkennt den Zusammenhang von muskulären
Körperbewegungen und artikulatorischer Produktion von Sprache. Ferner
kann er sogar zeigen, dass die muskulär initiierte und gesteuerte
Artikulation einen Einfluss auf die zeitliche Aussteuerung der
Formantfrequenzen haben muss. Dellwo et al. (2009) konnten zudem
beobachten, dass beispielsweise der prozentuale Anteil einer vokalischen
Äusserung (%V, nach Ramus et al., 1999) selbst bei der Imitation einer
fremden Stimme relativ konstant zu bleiben scheint. Somit gibt es einen
konkreten Hinweis darauf, dass ein auf zeitlichen Intervallen basierendes
Mass eine wichtige Rolle für die Sprecheridentifizierung spielen könnte. In
dieser Studie sollen daher suprasegmentale Zusammenhänge von Sprache
im Hinblick auf ihre temporale Spezifität untersucht werden.
Daniel FRIEDRICHS & Volker DELLWO 151
• nPVI-C, nPVI-V (Grabe & Low, 2002) und nPVI-CV (Barry et al.,
2003), paarweiser Index für die Variabilität der Dauer von
vokalischen (V) und konsonantischen Intervallen (C), welcher
für die Sprechgeschwindigkeit normalisiert wurde. Dieser wird
folgendermassen berechnet:
m−1 dk − dk+1
nPVI = 100 × ( m−1)
k=1 ( dk − dk+1 ) 2
m steht hierbei für die Anzahl der Intervalle und d stellt die Dauer des
k-ten Intervalls dar.
2.1 Sprecher
Für das Experiment wurden zwei Gruppen von insgesamt 8 Sprechern
untersucht. Die erste Gruppe (Sprecher 1-4; je zwei weibliche und
männliche Probanden) im Alter von 20-30 Jahren wurde aus dem Korpus
des Phonetischen Laboratoriums der Universität Zürich anhand hoher
differierender %V-Werte ausgewählt. Um eine möglichst hohe Variabilität
der Zielwerte zu erreichen, wurden zwei Deutsch-Muttersprachler
(Sprecher 1 und 2) und zwei Italienisch-Muttersprachler (Sprecher 3 und 4)
mit hohem Deutsch-L2-Niveau ausgesucht. Durch diese Vorauswahl sollte
der Einfluss der Synchronisierung auf zumindest ein akustisches
Rhythmusmass besser beobachtet werden können. %V wurde gewählt, da
es sich in den zuvor präsentierten Studien (z.B. Dellwo et al., 2009) als ein
besonders resistenter Faktor gegenüber externen Einflüssen, wie
beispielsweise der Sprechgeschwindigkeit, gezeigt hatte. Die zweite
Gruppe von Probanden (Sprecher 5-8; eine weibliche Probandin und drei
männliche Probanden) im Alter von 20-25 Jahren waren durchweg Deutsch-
Muttersprachler (Sprecher 6-7 Standarddeutsch, 5 und 8
Schweizerdeutsch).
154 Rhythmische Variabilität bei synchronem Sprechen
2.2 Material
Alle Versuchspersonen wurden gebeten, die folgenden drei Sätze im
eigenen Rhythmus und ohne jegliche Vorgaben vorzulesen:
(1) Die Frau des Apothekers weiss immer was sie will.
(2) Das Theater hat viele neue Aufführungen geplant.
(3) Er wollte sich seiner Schwächen einfach nicht bewusst werden.
Die Sprecher der zweiten Gruppe mussten sich nach einer kurzen Pause mit
den Versionen jedes einzelnen Satzes der Sprecher 1-4 (i.e., Gruppe 1)
synchronisieren. Durch die Berechnung der akustischen
Rhythmuskorrelate erhielten wir drei unterschiedliche Konditionen für die
spätere Auswertung. Die Ergebnisse der vorgelesenen Versionen von
Sprecher 5-8 dienten als Ausgangswerte (read), die der gelesenen Sätze
von Sprecher 1-4 als Zielwerte (target) und die Messwerte der
Synchronisierungsversuche von Sprecher 5-8 als Vergleichswerte (sync).
2.3 Versuchsablauf
Die Aufnahmen wurden in einer Audiometriekabine des Phonetischen
Laboratoriums der Universität Zürich durchgeführt. Die Synchronsprecher
(sync) bekamen während der zweiten Phase des Experiments die
Zielsprecher (target) über Kopfhörer als Stimuli zu hören. Die Probanden
benutzten hierzu halboffene Kopfhörer, um die eigene Stimme während der
Einspielungen noch hören zu können. Dieses Verfahren sollte eine
möglichst hohe Sensibilisierung der Sprachproduktion ermöglichen. Da
sowohl die eigene Stimme als auch die Zielstimme während des
Experimentes akustisch wahrnehmbar waren, bestand eine grössere
Chance, während des Versuches eine Asynchronität zu korrigieren.
Ferner wurde jeder Satz eines Zielsprechers (target) fünf mal eingespielt.
Eingeleitet wurde er von drei 1kHz-Tönen im gleichbleibenden Abstand von
500ms. Der erste dieser fünf Stimuli diente zur Orientierung und musste
noch nicht synchronisiert werden. Für die Auswertung wurde später stets
der letzte erfolgreiche Synchronisierungsversuch verwendet, da durch den
mehrmaligen Versuch bzw. durch die Einübung ein höherer Grad an
Synchronität gegeben war. Lediglich in zwei Fällen musste die dritte, in
einem Fall die zweite Aufnahme verwendet werden, da sich der Proband
entweder versprochen oder den Einsatz verpasst hatte. Somit ergab sich
ein Korpus von 24 gelesen Sätzen (8x3 read-Versionen) und 48 synchron
gesprochenen Sätzen (4x4x3 sync-Versionen). Insgesamt dauerte das
Experiment ungefähr 14 Minuten, so dass eine Ermüdung oder das
Nachlassen der Konzentration der Versuchspersonen weitgehend
ausgeschlossen werden konnte.
Daniel FRIEDRICHS & Volker DELLWO 155
Abb. 1: Segmentierung des Satzfragments "Er wollte sich seiner Schwächen" in konsonantische
und vokalische Intervalle (c-v). Für die Bearbeitung wurde das Programm Praat (www.praat.org)
verwendet.
3. Ergebnisse
Auf den ersten Blick zeigt sich eine randomisierte Verteilung der
Messwerte. Für alle untersuchten Rhythmuskorrelate (%V, nPVI-C, nPVI-V,
nPVI-CV) ist zunächst kein einhaltliches Muster erkennbar. Bei der
Synchronisierung können die Werte konstant bleiben, sich einem Zielwert
annähern oder sich sogar (scheinbar) unabhängig von Ausgangswert (read)
und Zielwert (target) verändern. Die graphische Darstellung gibt hierüber
einen schnellen und einfachen Überblick. In den Abbildungen 2-5 sind alle
Messwerte für die drei Konditionen (read/sync/target) ablesbar. Die
Relation gibt hierbei das jeweilige Sprecherpaar an, d.h. 51 steht
beispielsweise für den Synchronisierungsversuch von Sprecher 5 mit
Sprecher 1. Als Referenz zur Synchronisierung (sync) ist immer der
Ausgangswert (read) und Zielwert (target) angegeben.
Daniel FRIEDRICHS & Volker DELLWO 157
jedoch stark, während lediglich eine schwache bis mittlere Korrelation der
Zielwerte (target) mit den Synchronisierungswerten (sync) berechnet
werden konnte. In Tabelle 1 sind die Ergebnisse der Analyse aufgelistet.
Akustisches
Rhythmuskorrelat r (sync/read) r² (sync/read) Sig. (sync/read)
%V 0.809 0.654 p<0.001
nPVI-C 0.609 0.371 p<0.001
nPVI-V 0.65 0.423 p<0.001
nPVI-CV 0.828 0.686 p<0.001
Akustisches r² Sig.
Rhythmuskorrelat r (sync/target) (sync/target) (sync/target)
%V 0.296 0.088 p=0.041
nPVI-C 0.383 0.147 p=0.007
nPVI-V 0.367 0.135 p=0.010
nPVI-CV 0.484 0.234 p<0.001
Tab. 1: Ergebnisse der Korrelationsanalysen für die vier untersuchten Rhythmuskorrelate
Abb. 6: Korrelation der %V-Werte für die Kombinationen read/sync (links) und target/sync.
162 Rhythmische Variabilität bei synchronem Sprechen
Abb. 7: Boxplots der Verteilung der Messwerte für %V bei Sprecher 5 für die Sätze 1-3 in allen drei
Konditionen (read/sync/target)
zwar anzudeuten, jedoch nicht so deutlich wie im Fall von %V. Abbildung 8
verdeutlicht am Beispiel von nPVI-V diese Beobachtung.
Abb. 8: Korrelation der nPVI-V-Werte für die Kombinationen read/sync (links) und target/sync
Abb. 9: Korrelation der nPVI-CV-Werte für die Kombinationen read/sync (links) und target/sync
164 Rhythmische Variabilität bei synchronem Sprechen
4. Diskussion
Bibliographische Angaben
Alekin, RO, Klaas, Y.A, Christovich, LA (1962): Human reaction time in the copying of aurally
perceived vowels. In: Soviet physics: Acoustics 8, (1), 17ff.
Auer, P. (1993): Is a rythm-based typology possible? A study of the role of prosody in phonological
typology. KontRI Working Paper, 21.
Barry, W.J., Andreeva, B., Russo, M., Dimitrova, S., Kostadinova, T. u. a. (2003): Do rhythm
measures tell us anything about language type. In: Proceedings of the 15th ICPhS
Barcelona, 2693-2696.
Cummins, F. (2002): On synchronous speech. In: Acoustic Research Letters Online, 3, (1), 7-11.
— (2003): Practice and performance in speech produced synchronously. In: Journal of Phonetics,
31, (2), 139-148.
— (2009): Rhythm as entrainment: The case of synchronous speech. In: Journal of Phonetics, 37,
(1), 16-28.
Cunado, D., Nixon, M.S., Carter, J.N. (2003): Automatic extraction and description of human gait
models for recognition purposes. In: Computer Vision and Image Understanding, 90, (1), 1-
41.
Crystal, T.H. (1982): House, A.S.: Segmental durations in connected speech signals: Preliminary
results. In: The journal of the acoustical society of America, 72, 705-716.
Dauer, R.M. (1987): Phonetic and phonological components of language rhythm. In: Proceedings of
the XIth International Congress of Phonetic Sciences Tallinn, Bd., 5, 447-450.
Dellwo, V., Huckvale, M., Ashby, M. (2007): How is individuality expressed in voice? An introduction
to speech production and description for speaker classification. In: Speaker Classification I,
S. 1-20.
Dellwo, V., Ramyead, S., Dankovicova, J. (2009): The influence of voice disguise on temporal
character- istics of speech. Abstract presented at the annual IAFPA meeting 2009,
Cambridge/UK.
Grabe, E., Low, E.L. (2002): Durational variability in speech and the rhythm class hypothesis. In:
Papers in laboratory phonology, 7, 515-546.
Foster, J.P., Nixon, M.S., Prügel-Bennett, A. (2003): Automatic gait recognition using area-based
metrics. In: Pattern Recognition Letters, 24, (14), 2489-2497.
166 Rhythmische Variabilität bei synchronem Sprechen
Krivokapic, J. (2007): Prosodic planning: Effects of phrasal length and complexity on pause
duration. In: Journal of phonetics, 35, (2), 162-179.
Marslen-Wilson, W. (1973): Linguistic structure and speech shadowing at very short latencies. In:
Nature, 244(5417), 522-523.
McDougall, K. (2007a): Dynamic features of speech and the characterization of speakers: Towards
a new approach using formant frequencies. In: International Journal of Speech Language
and the Law, 13, (1), 89-126.
— (2007b): Dynamic features of speech and the characterization of speakers: Towards a new
approach using formant frequencies. In: International Journal of Speech Language and the
Law, 13, (1), 89-126.
Nolan, F. (1991): Forensic phonetics. In: Journal of Linguistics, 27, (2), 483-493.
— (1997): Speaker recognition and forensic phonetics. In: The handbook of phonetic sciences,
744-767.
Nolan, F., McDougall, K., De Jong, G., Hudson, T. (2009): The DyViS database: style-controlled
recordings of 100 homogeneous speakers for forensic phonetic research. In: International
Journal of Speech Language and the Law, 16, (1), 31-57.
Poore, M.A., Ferguson, S.H. (2008): Methodological variables in choral reading. In: Clinical
linguistics & phonetics, 22, (1), 13-24.
Porter, R.J., Lubker, J.F. (1980): Rapid reproduction of vowel–vowel sequences: Evidence for a fast
and direct acoustic–motoric linkage in speech. In: Journal of Speech & Hearing Research,
593-602.
Ramus, F., Nespor, M., Mehler, J. (1999): Correlates of linguistic rhythm in the speech signal. In:
Cognition, 73, (1), 265-292.
Roach, P. (1982): On the distinction between ‘stress-timed’ and ‘syllable-timed’ languages. In:
Linguistic controversies, 73-79.
Shockley, K., Sabadini, L., Fowler, C.A. (2004): Imitation in shadowing words. In: Attention,
Perception, & Psychophysics, 66, (3), 422-429.
Travaux neuchâtelois de linguistique, 2013, 59, 167-181
Human speech perception is not only based on acoustic speech signals but also on
visual cues like lip or jaw movements. Based on this assumption we used a between-
subject design to test listeners’ speaker identification ability in a voice line-up after
they were familiarized with a speaker under either of the following condition: (a) visual
and degraded acoustic information, (b) degraded acoustic information only, and (c)
visual information only. The results from this experiment indicate that listeners are
able to perform the identification task to a considerable degree under all three
experimental conditions. We conclude that listeners’ identification ability of speakers
based on degraded acoustic material is about as good as their identification ability
based on visual speech cues. The combination of acoustic and visual cues does not
enhance listeners’ performance.
Videos) zuordnen, von dem sie glaubten, dass dies der Sprecher ist, der das
Stimmsignal produziert hat. Die Studie zeigte, dass Hörer dies signifikant
über einer Zufallsverteilung konnten, obwohl die eigentliche Effektgrösse
eher klein war.
1. Audiovisuelle Sprachwahrnehmung
2. Methoden
2.1 Versuchspersonen
65 Probanden nahmen Teil, davon 53 mit Schweizerdeutsch und 12 mit
Hochdeutsch als Muttersprache. Je 22 Versuchspersonen wurden in der A-
und in der AV-Kondition getestet sowie 21 in der V-Kondition. Die
Rekrutierung erfolgte an der Universität Zürich. Daher handelt es sich bei
Sibylle SUTTER & Volker DELLWO 171
1
Institute for Perception-TNO (1990):
http://spib.rice.edu/spib/data/signals/noise/babble.html [Stand: 20.02.2012]
172 Audiovisuelle Sprechererkennung durch linguistisch naive Personen
zwischen 300 bis 3500 Hz). Die durchschnittliche Intensität der Aufnahmen
wurde auf 70 dB vereinheitlicht.
Voice-Parade Material: Für die Voice-Parade wurde der gelesene Text eines
jeden Sprechers in 10 Sätze unterteilt. Die Parade bestand aus 140 Stimuli
(10 Sätze x 7 Sprecher x 2 Durchgänge). Die Dauer der Stimuli betrug
zwischen drei und vier Sekunden. Die beiden Durchgänge wurden für jeden
Hörer individuell randomisiert und hintereinander präsentiert (permute
balanced).
2.3 Ablauf
Nach der Familiarisierung mit einem Zielsprecher muss der Hörer aus einer
ihm unbekannten Anzahl verschiedener Sprecher die Zielstimme
wiedererkennen. Die Versuchspersonen werden randomisiert in drei
Gruppen aufgeteilt und mit einem Between Subject Design getestet
(Teilnahme jeweils nur an einer der drei Familiarisierungskonditionen: A, AV
oder V). In der Familiarisierungsphase werden die Probanden mit einem
Zielsprecher in einer der drei Kondition familiarisiert (Gruppe A: nur
Audiosignal, Gruppe B: Audio-videosignal, Gruppe C: nur Videosignal).
Während der Testphase müssen die Versuchsgruppen den Zielsprecher aus
einer ihnen unbekannten Anzahl Sprecher wieder-erkennen. Allen drei
Gruppen wird die identische Voice-Parade vorgespielt. Die Voice-Parade
wird mittels Praat präsentiert. Den Hörern wird ein Stimulus vorgespielt,
worauf sie auf einem Computerbildschirm mittels einer Maus eine Auswahl
zwischen "ja, das ist der Sprecher" und "nein, das ist er nicht" treffen
müssen. Die Antwort werden differenziert mit: "sicher", "weiss nicht recht",
"nur geraten" (vgl. Appendix II).
Damit ein allfälliger Effekt nicht auf eine spezifische Stimme reduziert
werden kann, werden die Versuchspersonen randomisiert mit einer von drei
unterschiedlichen Sprechern (aus der Gruppe von sieben) familiarisiert.
Für die Familiarisierung werden die Versuchspersonen lediglich darauf
hingewiesen, sich die Stimme gut einzuprägen. Sie bekommen keine
weiteren Informationen zum Experiment. Nach dem dritten Anhören
beziehungsweise Ansehen des Zielsprechers werden die Versuchspersonen
darüber informiert, dass es sich um eine Sprecheridentifizierungsaufgabe
handelt. Es wird eine Demo gezeigt, wie sie in der Folge ihre Antworten
abgeben müssen. Ein Stimm-Sample aus dem Experiment wird vorgespielt,
wobei die Hörer auf die Frage antworten müssen: "War das der Sprecher
von vorhin?". Zur Auswahl stehen die Antworten "ja" und "nein", mit der
Differenzierung "sicher", "weiss nicht recht", "nur geraten". Wenn die Hörer
nach den zwei Demo-Samples keine Fragen haben, können sie einen
Fragebogen zu den Personalien ausfüllen. Jeder Versuchsperson wird eine
ID zugewiesen, mit der das Experiment anonymisiert wird. Erhoben werden
Sibylle SUTTER & Volker DELLWO 173
3. Resultate
Die Frage ist, wie sich die audiovisuelle Wahrnehmung auf die
Sprecheridentifizierungsperformanz von naiven Hörern beziehungsweise
Betrachtern auswirkt. Es wird angenommen, dass die Versuchspersonen
174 Audiovisuelle Sprechererkennung durch linguistisch naive Personen
gar 80 %. Der A’ liegt dabei bei beiden Konditionen im Schnitt bei 0.62 bei
einer Standardabweichung von 0.24 (A) sowie 0.25 (AV-Kondition). Von den
21 Versuchspersonen der V-Kondition erreichen 13 einen A’ > 0.5, was rund
60% der Teilnehmenden entspricht. Acht Probanden erreichten einen A’ <
0.5 (38.09%) und können somit die Aufgabe nicht lösen.
Wie die Boxplots links in Abbildung 2 zeigen, streuen sich die Ergebnisse
enorm, während der Median in den Konditionen A und AV klar über 0.5 liegt
und sich in der V-Kondition mehr oder weniger auf dem Wert der
Zufallswahrscheinlichkeit einpendelt. Die Grafik zeigt deutlich die enorm
starke Streuung in allen drei Konditionen. Weniger deutlich als im
Streudiagramm zeigt sich hier die grosse Lücke (vor allem in den
Konditionen A und AV) um den Zufallswahrscheinlichkeitswert von 0.5
herum. Es ist aber sehr schön ablesbar, dass sich die Streuung vom einen
(1.0) zum anderen Extrem (0.0) zieht was die hohe Variabilität der
Performanz der Versuchspersonen zeigt. Vergleicht man das Resultat der
A’-Werte mit jenem von %Correct, zeigt sich ein interessantes Bild.
Während beim A’ die Sensitivität der Versuchspersonen ermittelt wird,
zeigt %Correct die Zusammenfassung der korrekten Antworten.
Interessant dabei ist zu erkennen, dass bei %Correct alle drei
Versuchskonditionen über der Zufallswahrscheinlichkeit liegen. Und noch
mehr: Die IDP scheint in allen drei Konditionen gleich zu sein.
Die erhobenen Variablen (Alter, Geschlecht, Ausbildung, Muttersprache
beziehungsweise Dialektnähe) zeigen keine Unterschiede in Bezug auf die
IDP der Probanden. Es muss davon ausgegangen werden, dass diese
Variablen keinen Einfluss haben auf die Identifizierungsfähigkeit der
Probanden in diesem Experiment.
176 Audiovisuelle Sprechererkennung durch linguistisch naive Personen
4. Diskussion
5. Conclusion
Die Hypothese, dass der visuelle Stimulus den auditiven bei der
Sprechererkennung positiv beeinflusst, kann nicht signifikant gezeigt
werden, eine feine Tendenz zu dieser Annahme ist jedoch aus den
Resultaten ablesbar. Die vorliegende Untersuchung zeigt, dass es extrem
hörerbedingt ist, wie gut man bei einer Identifizierung von Sprechern
sowohl bei der auditiven, audiovisuellen als auch bei der visuellen
Kondition abschneidet. Es scheint für einige Hörer der A-Kondition kein
Problem zu sein, den Zielsprecher aus verschiedenen Tonaufnahmen
herauszuhören. Es gibt aber eine ähnlich grosse Anzahl Hörer, die
Probleme damit haben. Dasselbe Bild zeigt sich in der AV- und V-Kondition.
Einige Versuchspersonen schneiden nach der Familiarisierung mit einem
Video des Zielsprechers sehr gut ab und können ihn von den anderen
Sprechern unterscheiden. Jedoch zeigt sich auch eine grosse Gruppe an
Hörern, denen dies nicht gelingt. Die Versuchspersonen der AV-Kondition
können die zusätzliche visuelle Information nicht zur Steigerung ihrer IDP
nutzen. Ihre IDP ist nicht höher als jene der A-Gruppe. Die V-Kondition zeigt
jedoch, dass auch mit einem fehlenden Tonsignal eine
Stimmidentifizierung möglich ist. Nimmt man %Correct, zeigt sich, dass die
visuellen Informationen, die durch die Artikulationsbewegungen gesendet
werden, ungefähr gleich viel Stimminformation beinhaltet wie ein
degradiertes Tonsignal. Die Kombination aus beidem, ein degradiertes
Tonsignal und ein Videosignal der Artikulationsbewegungen, liefert jedoch
nicht die doppelte Information. Das zeigt das Ergebnis von %Correct,
welches in allen drei Konditionen gleich zu sein scheint.
Die grosse Variabilität des Ergebnisses zeigt jedoch, dass dieses
Experiment sehr hörerspezifisch ist. Es müsste ein Versuchsdesign
konzipiert werden, bei dem jeder Proband in jeder Kondition getestet wird.
Dabei muss jedoch beachtet werden, dass sich beim Hörer kein Lerneffekt
einstellt sowohl in Bezug auf die Stimuli als auch in Bezug auf den
Versuchsablauf. Ein weiterer spannender Punkt, der im Bereich der
audiovisuellen Sprachwahrnehmung untersucht werden könnte, ist die
Frage, ob man sich besser auf die Stimme eines Sprechers konzentrieren
kann, wenn man dessen Sprache nicht versteht oder ob es genau
umgekehrt der Fall ist. Interessant wäre dabei zu sehen, ob sich
Unterschiede in der IDP_zeigen zwischen den drei Konditionen. Eine
weitere Variable, die mit dem vorliegenden Experiment nicht getestet
wurde, ist die Frage nach dem Langzeitgedächtnis. Die Probanden lösten
die Sprecheridentifizierungsaufgabe unmittelbar nach der Familiarisierung
mit dem Zielsprecher. Wie lange kann man sich eine einmalig gehörte
Stimme merken? Und ist es möglich eine Stimme nach einer gewissen
Zeitperiode wieder zu erkennen, wenn die Stimme beim ersten Kontakt
degradiert oder verstellt war?
Sibylle SUTTER & Volker DELLWO 179
Danksagung
Die Autoren möchten sich bei Adrian Leemann und einem annonymen
Gutachter für wichtige Änderungsvorschläge bedanken.
Bibliographische Angaben
Armstrong, H. A. & McKelvie, S. J. (1996): The effect of face context on recognition memory for
voices. In: Journal of Experimental Psychology: General, 123(3), 259-270.
Belin, P., Zatorre, R. J., Lafaille, P., Ahad, P. & Pike, B. (2004): Thinking the voice: neural correlates
of voice perception. In: TRENDS in Cognitive Sciences, 8(3), 129-135.
Campanella, S. & Belin, P. (2007): Integrating face and voice in person perception. In: TRENDS in
Cognitive Sciences, 11(12), 535-543.
Cook, S. & Wilding, J. (2001): Earwithness testimony: Effects of exposure and attention on the face
overshadowing effect. In: British Journal of Psychology, 92(4), 617-629.
— (1997): Earwithness testimony 2: Voices, Faces and Context. In: Applied cognitive Psychology,
11(6), 527-541.
180 Audiovisuelle Sprechererkennung durch linguistisch naive Personen
Joassin, F., Maurage, P., Bruyer, R., Crommelinck, M. & Campanella, S. (2004): When audition
alters vision: an event-related potential study of the cross-modal interactions between
faces and voices. In: Neuroscience Letters, 369, (2), 132-137.
Kamachi, M., Hill, H., Lander, K. & Vatikiostis-Bateson, E. (2003): ,Putting the Face to the Voice’:
Matching Identity across Modality. In: Current Biology, 13, (19), 1709-1714.
Lattner, S., Meyer, M. E., Friederici, A. D. (2005): Voice Perception: Sex, Pitch, and the Right
Hemisphere. In: Human Brain Mapping, 24, (1), 11-20.
Legge, G. E., Grosmann, C. & Pieper, C. M. (1984): Learning unfamiliar voices. In: Journal of
Experimental Psychology: Learning, Memory, & Cognition, 10, (2), 298-303.
McAllister, H. A., Dale, R. H., Bregman, N. J., McCabe, A. & Cotton, R. (1993): When eyewitnesses
are also earwitnesses: effects on visual and voice identifications. In: Basic and Applied
Social Psychology, 14, 161-170.
McGurk, H. & MacDonald, J. D. (1976): Hearing lips and seeing voices. In: Nature, 264, (5588), 746-
748.
Neti, C., Iyengar, G., Potamianos, G., Senior, A., & Maison, B. (2000): Perceptual interfaces for
information interaction: joint processing of audio and viusal information for human-
computer interaction. In: Processing of the International Conference on Spoken Language, 3,
11-14.
Rosenblum, L. D., Smith, N. M., Nichols, S. M., Hale & S., Lee, J. (2006): Hearing a face: Cross-
modal speaker matching using isolated visible speech. In: Perception & Psychophysics, 38,
(1), 84-93.
Rosenblum, L. D. (2005): Primacy of Multimodal Speech Perception. In: David B. Pisoni & Robert E.
Remez (Hg.), The Handbook of Speech Perception, Malden, Oxford, Victoria (Blackwell
Publishing), 51-78.
Sheffert, S. M. & Olson, E. (2004): Audiovisual spreech facilitates voice learing. In: Perception &
Psychophysics, 66, (2), 352-361.
Sibylle SUTTER & Volker DELLWO 181