Vous êtes sur la page 1sur 186

59 2013 | No 59

Impr. Rapidoffset, Le Locle

Institut des sciences


du langage et de la
communication

Sandra Schwab & Adrian Leemann (Eds)

L’étude de la prosodie en Suisse

L’étude de la prosodie en Suisse T r a v a u x n e u c h â t e l o i s d e l i n g u i s ti q u e


Travaux neuchâtelois de linguistique
N° 59, 2013 • ISSN 1010-1705

Table des matières

 Sandra SCHWAB & Adrian LEEMANN


Avant-propos ------------------------------------------------------- 1-4

 Mathieu AVANZI
Note de recherche sur l’accentuation et le
phrasé prosodique à la lumière des corpus de
français ----------------------------------------------------------- 5-24

 Pauline DUBOSSON, Sandra SCHWAB & Mathieu AVANZI


La prosodie du "français fédéral". Étude de la
vitesse d'articulation et de l'accentuation en
français L1 et L2 -------------------------------------------------- 25-42

 Naoki PETER & Adrian LEEMANN


New approach towards predicting local f0
movements using Linear Least Squares by SVD ------------------ 43-56

 Ingrid HOVE
Prosodic differences between Germans and
German-speaking Swiss in L2 ------------------------------------ 57-70

 Sandra SCHWAB
Apprenants hispanophones de FLE et
accentuation en français ----------------------------------------- 71-86

 Volker DELLWO & Adrian FOURCIN


Rhythmic characteristics of voice between and
within languages ------------------------------------------------ 87-107

 Stephan SCHMID & Volker DELLWO


Sprachrhythmus bei bilingualen Sprechern ------------------- 109-126

 Marie José KOLLY & Volker DELLWO


(How) can listeners identify the L1 in foreign
accented L2 speech? ------------------------------------------ 127-148
IV

 Daniel FRIEDRICHS & Volker DELLWO


Rhythmische Variabilität bei synchronem
Sprechen und ihre Bedeutung für die
forensische Sprecheridentifizierung -------------------------- 149-166

 Sibylle SUTTER & Volker DELLWO


Audiovisuelle Sprechererkennung durch
linguistisch naive Personen ----------------------------------- 167-181

Adresse des auteurs------------------------------------------------ 183-184


TRANEL (Travaux neuchâtelois de linguistique)
La revue TRANEL fonctionne sur le principe de la révision par les pairs. Les propositions
de numéros thématiques qui sont soumises au coordinateur sont d’abord évaluées de
manière globale par le comité scientifique. Si un projet est accepté, chaque contribution
est transmise pour relecture à deux spécialistes indépendants, qui peuvent demander
des amendements. La revue se réserve le droit de refuser la publication d’un article qui,
même après révision, serait jugé de qualité scientifique insuffisante par les experts.

Responsables de la revue
Gilles Corminboeuf email: gilles.corminboeuf@unine.ch
Evelyne Pochon-Berger email: evelyne.pochon@unine.ch

Comité scientifique de la revue


Marie-José Béguelin, Simona Pekarek Doehler, Louis de Saussure, Geneviève de Weck,
Marion Fossard (Université de Neuchâtel)

Secrétariat de rédaction
Florence Waelchli, Revue Tranel, Institut des sciences du langage et de la
communication, Université de Neuchâtel, Espace Louis-Agassiz 1, CH-2000 Neuchâtel

Les anciens numéros sont également en accès libre (archive ouverte / open access) dans
la bibliothèque numérique suisse romande Rero doc. Voir rubrique "Revues":
http://doc.rero.ch/collection/JOURNAL?In=fr

Abonnements
Toute demande d'abonnement ou de numéro séparé est à adresser à:
Revue Tranel, Université de Neuchâtel, Espace Louis-Agassiz 1, CH-2000 Neuchâtel
Tél.: ++41(0)32 718 16 90
Fax: ++41(0)32 718 17 01 email: revue.tranel@unine.ch

Tarifs
Abonnement annuel (2 numéros) Suisse: CHF 51.00 Etranger: € 34.80
Numéro séparé Suisse: CHF 27.00 Etranger: € 18.40
Numéro double Suisse: CHF 40.00 Etranger: € 27.30

Paiement
Suisse: CCP 20-4130-2 – Université, Fonds de tiers, 2000 Neuchâtel (réf: U.00695)
Etranger: Compte en EUR: 290 00500.080.60L auprès d'UBS SA, 2000 Neuchâtel (CH)
[Code Swift: UBSWCHZH80A] [IBAN: CH49 0029 0290 5000 8060 L]
© Institut des sciences du langage et de la communication, Université de Neuchâtel, 2013
Tous droits réservés
ISSN 1010-1705
Travaux neuchâtelois de linguistique, 2013, 59, 1-4

Avant-propos

Sandra SCHWAB1 & Adrian LEEMANN2


1
Ecole de langue et de civilisation françaises, Université de Genève
2
Phonetisches Laboratorium der Universität Zürich

Ce volume rassemble une sélection d'articles issus du premier atelier


Research on Prosody in Switzerland (SWIP I) qui a eu lieu le 27 avril 2012 à
l'Université de Zurich. L'objectif de cet atelier était de réunir, pour la
première fois, des chercheurs de différentes universités travaillant dans le
domaine de la prosodie en Suisse. Les communications et les posters
présentés lors de cette journée couvraient notamment les aspects
suivants:
- Prosodie et variétés régionales suisses (romandes ou alémaniques)
- Prosodie et acquisition d'une langue étrangère / bilinguisme
- Prosodie et sciences judiciaires (forensic sciences, sciences forensiques)1
La Suisse, comme on le sait, connaît quatre langues nationales: l’allemand,
le français, l’italien et le romanche. Le français parlé par les Suisses
romands, même s'il se distingue du français de France, ne constitue pas
une variété uniforme. En effet, on trouve des spécificités régionales à
plusieurs niveaux: syntaxique, lexical, morphophonologique et phonétique
(Métral, 1977; Knecht, 1979; Knecht & Rubattel, 1984; Andreassen, Racine
& Maître, 2010).
Dans le domaine de la phonétique, les études caractérisant les aspects
prosodiques des variétés suisses romandes se faisaient particulièrement
rares, du moins jusqu'à il y a une dizaine d'années. Ce domaine est
aujourd’hui en pleine expansion, ce dont attestent les travaux de plusieurs
chercheurs qui se sont penchés sur certaines propriétés prosodiques telles
que la durée des voyelles, le marquage des syllabes pénultièmes de groupe
accentuel, les contours intonatifs ou les variables temporelles (par
exemple, Grosjean, Carrard, Godio, Grosjean & Dommergues, 2007; Miller,
2007; Woehrling, Boula de Mareüil & Adda-Decker, 2008; Schwab & Racine
2012; Avanzi, Schwab, Dubosson & Goldman 2012).
Dans la première contribution de ce volume, Mathieu Avanzi, après avoir
proposé une procédure d'annotation prosodique, examine les propriétés

1
Comme le définit Meuwly (2001: avant-propos), les sciences forensiques constituent
"l'ensemble des principes scientifiques et des méthodes techniques appliquées à
l'investigation criminelle, pour prouver l'existence d'un crime et aider la justice à déterminer
l'identité de l'auteur et son mode opératoire".
2 Avant-propos

accentuelles de productions issues de diverses variétés régionales de


Suisse et de France. Pauline Dubosson, Sandra Schwab et Mathieu Avanzi,
quant à eux, comparent, entre autres, la vitesse d'articulation de locuteurs
natifs de Neuchâtel et de Paris.
Pour ce qui est de l'allemand, bien qu'il soit reconnu comme langue
nationale, la variété parlée par les Suisses est le suisse allemand, plus
précisément, un (parmi de nombreux) dialecte(s) suisse(s) allemand(s). Le
terme suisse allemand ne désigne donc pas une variété linguistique
homogène (par exemple, Haas, 2000), mais renvoie à l’ensemble des
dialectes parlés en Suisse allemande.
L'étude des traits prosodiques des dialectes suisses allemands a
également longtemps été négligée. En effet, la prosodie des dialectes
suisses allemands a été marginalement abordée dans des études telles
que Beiträge zur schweizerdeutschen Grammatik (1910–1941) et dans le
domaine de la synthèse de la parole (Siebenhaar, 2004; Siebenhaar, Forst &
Keller, 2004; Häsler, Hove & Siebenhaar, 2005). Cependant, plus
récemment, certains chercheurs (Leemann & Siebenhaar, 2008; Fleischer &
Schmid, 2010; Leemann, 2012) ont non seulement examiné les
caractéristiques intonatives des dialectes suisses allemands, mais ont
également cherché à savoir si ces dialectes pouvaient être identifiés sur la
base de propriétés prosodiques uniquement.
Dans ce volume, deux contributions abordent la problématique de la
structure prosodique des dialectes suisses allemands, que cela soit en L1
ou en L2. Naoki Peter et Adrian Leemann décrivent les contours intonatifs
de productions issues du dialecte suisse allemand valaisan, et ce, à l'aide
d'une nouvelle approche basée sur la méthode statistique des moindres
carrés. Ingrid Hove, pour sa part, présente une étude dans laquelle elle
examine dans quelle mesure la variété régionale d’un locuteur (allemand ou
suisse allemand) influence la perception de son accent dans une langue
étrangère (français et anglais).
La situation linguistique en Suisse favorisant les contacts, on désigne par
l'expression français fédéral le français parlé par des locuteurs suisses
allemands (Kolly, 2010). La prosodie du français fédéral n'a, à ce jour, pas
fait l'objet de nombreuses recherches. Dans ce volume, Pauline Dubosson,
Sandra Schwab et Mathieu Avanzi, outre la comparaison, déjà mentionnée,
entre les productions de locuteurs neuchâtelois et parisiens, examinent
deux caractéristiques prosodiques chez des locuteurs de français fédéral,
à savoir la vitesse d'articulation et l'accentuation.
L'acquisition de la prosodie en langue seconde (L2) n'a suscité un certain
intérêt que récemment, bien qu'elle constitue une composante importante
dans le processus d'acquisition d'une langue seconde. Dans ce domaine,
de nombreux chercheurs ont montré que, lors de l'acquisition d'une L2, les
Sandra SCHWAB & Adrian LEEMANN 3

propriétés prosodiques de la langue maternelle (L1) étaient transférées


vers la L2, que cela soit en production ou en perception (par exemple,
Trouvain & Gut, 2007)
Dans ce volume, deux contributions traitent du transfert prosodique en
production de la parole. Sandra Schwab aborde cette question en
examinant les productions d'apprenants hispanophones en français L2.
Stephan Schmid et Volker Dellwo, quant à eux, tentent de déterminer si des
locuteurs bilingues italien-allemand présentent des caractéristiques
prosodiques similaires à celles de locuteurs monolingues italophones ou
germanophones.
Enfin, l'étude de la prosodie peut également se révéler utile dans le
domaine judiciaire. En effet, lors de l'identification du locuteur (forensic
speaker identification), les experts utilisent certaines caractéristiques du
signal de parole pour déterminer, par exemple, si une personne en
particulier est l'auteur d'un énoncé donné, ou pour déterminer si une même
personne est l'auteur de deux énoncés différents. Volker Dellwo et ses
collègues du Phonetisches Laboratorium de l'Université de Zurich mènent
différentes recherches dans lesquelles ils examinent dans quelle mesure
les caractéristiques temporelles (i.e. rythmiques) de la parole permettent
l'identification du locuteur.
C'est autour de cet axe "forensique" que s'articule la seconde moitié de ce
volume. La contribution de Volker Dellwo et Adrian Fourcin fournit une
solide introduction aux diverses mesures temporelles (i.e. rythmiques) de
la parole. Stephan Schmid et Volker Dellwo comparent ensuite ces diverses
mesures chez des locuteurs monolingues italophones, monolingues
germanophones et bilingues italien-allemand. Puis, Marie-José Kolly et
Volker Dellwo se penchent sur la question de savoir si l'on peut identifier la
variété régionale d'un locuteur suisse allemand (Bern ou Saint-Gall)
lorsqu'il s'exprime dans une langue étrangère (français et allemand). Daniel
Friedrichs et Volker Dellwo étudient, quant à eux, dans quelle mesure un
locuteur arrive à "calquer" les caractéristiques temporelles de son
interlocuteur. Finalement, Sybille Sutter et Volker Dellwo examinent
l'influence de l'information visuelle, en plus de l'information auditive, dans
l'identification du locuteur.
La nature pluridisciplinaire des contributions de ce volume illustre la
richesse et la complexité du domaine de la prosodie et atteste, par ailleurs,
de l'avancement de la recherche dans ce domaine en Suisse.
4 Avant-propos

Bibilographie

Andreassen, H., N., Racine, I., Maître R. (2010): La Suisse. In S. Detey, J. Durand, B. Laks. & C.
Lyche (éds), Les variétés du français parlé dans l’espace francophone. Paris (Editions
Ophrys).
Avanzi, M., Schwab, S., Dubosson, P. & Goldman, J.-P. (2012): La prosodie de quelques variétés de
français parlées en Suisse romande. In A. C. Simon (éd.), La variation prosodique régionale
en français. Bruxelles (De Boeck/ Duculot), 89-118.
Fleischer, J., Schmid, S. (2006): Zurich German. Journal of the International Phonetics Association,
36 (2): 243-253.
Grosjean, F., Carrard, S., Godio, C., Grosjean, L. & Dommergues, J. Y. (2007): Long and short vowels
in Swiss French: their production and perception. French Language Studies, 17, 1-19.
Haas, W. (2000): Die deutschsprachige Schweiz. In H. Bickel & R. Schläper, R. (Hg.), Die
viersprachige Schweiz. Aarau / Frankfurt a. M. / Salzburg (Sauerländer, Sprachlandschaft
25), 57-138.
Häsler, K., Hove, I., Siebenhaar, B. (2005): Die Prosodie des Schweizerdeutschen –Erkenntnisse
aus der sprachsynthetischen Modellierung von Dialekten. Linguistik online, 24, 187-224.
Knecht P. & Rubatttel, C. (1984): A propos de la dimension sociolinguistique du français en Suisse
romande. Le Français moderne, 52, 138-150.
Knecht, P. (1979): Le français en Suisse romande: aspects linguistiques et sociolinguistiques. In A.
Valdman (éd.), Le français hors de France. Paris (Honoré Champion), 249-258.
Kolly, M.-J. (2010): Regionale Spuren in “Français fédéral” und “Schweizerhochdeutsch”. Eine
Untersuchung im Schnittfeld von Akzent und Einstellung bei Schweizer Dialektsprechern.
Travail de master, Université de Berne.
Leemann, A. (2012): Swiss German Intonation Patterns. Studies in Language Variation vol. 10,
Amsterdam / Philadelphia (Benjamins).
Métral, J.-P. (1977): Le vocalisme du français en Suisse romande. Considérations phonologiques.
Cahiers Ferdinand de Saussure, 31, 145-176.
Meuwly, D. (2001): Reconnaissance de locuteurs en sciences forensiques: l'apport d'une approche
automatique. Thèse de doctorat, Université de Lausanne, Suisse
Miller, J. S. (2007): Swiss French prosody. Intonation, rate and speaking style in the Vaud Canton.
Thèse de doctorat, University of Illinois at Urbana-Champaign.
Schwab, S. & Racine, I. (2012): Le débit lent des Suisses romands: mythe ou réalité? Journal of
French Language Studies, 22, 1-15.
Siebenhaar, B. (2004): Sprachsynthese als Methode für die Dialektologie. In Linzerschnitten.
Beiträge zur 8. Bayerisch-österreichischen Dialektologentagung, ed. Stephan Gaisbauer and
Hermann Scheuringer, 245–252. Linz (Adalbert-Stifter-Institut des Landes Oberösterreich).
Siebenhaar, B., Forst, M., Keller E. (2004): Prosody of Bernese and Zurich German. What the
development of a dialectal speech synthesis system tells us about it. Regional Variation in
Intonation (Linguistische Arbeiten 492), ed. Peter Gilles and Jörg Peters, 219–238. Tübingen
(Niemeyer).
Trouvain, J. & Gut, U. (Eds.) (2007): Non-Native Prosody. Phonetic Description and Teaching
Practice. Berlin/New York (Mouton de Gruyter).
Woehrling, C., Boula de Mareüil, P. & Adda-Decker, M. (2008): Aspects prosodiques du français
parlé en Alsace, Belgique et Suisse. Actes des XXVIIè Journées d’Etudes de la Parole,
Avignon, France, 9-13 juin 2008, 1586-1589.
Travaux neuchâtelois de linguistique, 2013, 59, 5-24

Note de recherche sur l’accentuation et le


phrasé prosodique à la lumière des corpus de
français

Mathieu AVANZI
ISLC, Université de Neuchâtel

In this paper the main rules for stress assignment in French, the constraints relative
to the formation of minor prosodic units (Accentual Phrases) and major prosodic units
(Intonational Phrases, IP) are first recalled. A procedure developed in order to
annotate semi-automatically these phenomena in different French corpora is then
described. Finally the results of two studies are presented. The first one is conducted
on a 4-hour long corpus (designed for the statistical study of regional variation in
Swiss French). It aims at testing the robustness of two phonological rules implicated
in the formation of Accentual Phrase in French (deaccentuation of pre-nominal
adjectives (a sequel to the Align-XHead constraint), accentual clash avoidance rule).
The second summarizes the main results obtained in the author’s PhD thesis (Avanzi,
2012). It is conducted on a set of data containing approximately 800 dislocated-
sentences. It questions the weight of syntactic and information structure cues in front
of prosodic structure cues in order to identify Intonational Phrase boundaries.

1. Introduction
Jusqu’à il y a peu, l’annotation prosodique des corpus en français a
demeuré relativement rudimentaire et approximative, les spécialistes de
l’oral se contentant de noter les événements prosodiques perçus à l’aide
d’un jeu de symboles réduits, qui ne rendent pas toujours bien compte de la
complexité des phénomènes acoustiques activés par les sujets parlants
lors de l’énonciation de leurs structures syntaxiques. Parallèlement, les
spécialistes de prosodie ont mis au point, de leurs côtés, des modèles
d’analyse bien souvent inaccessibles au néophyte tant le caractère
extrêmement contrôlé des données prises en compte les situent "à des
années lumière de la parole spontanée" (Lacheret-Dujour, 2003: 4).
Depuis une dizaine d’années toutefois, les progrès en informatique d’une
part, l’intérêt grandissant pour les études d’interface d’autre part, ont
permis que la situation change (Lacheret-Dujour, 2007a; Avanzi & Delais-
Roussarie, 2011; Lacheret-Dujour et al., à par.). Si bien qu’aujourd’hui, de
nombreux protocoles et outils pour l’annotation (semi-)automatique de la
prosodie sont disponibles. Le but de cet article n’est pas d’en faire
l’inventaire1, mais de présenter une procédure basée sur la perception et
assistée informatiquement en vue de transcrire l’accentuation (calcul de la

1
Voir à ce sujet les contributions d’Avanzi et al. (2007) et de Delais-Roussarie & Yoo (2011).
6 Note de recherche sur l’accentuation et le phrasé prosodique

place et de la force des accents dans un groupe de mots donnés) et le


phrasé (identification des groupes prosodiques de différents rangs) dans
les corpus de français. Parce qu’elle a été conçue pour traiter des corpus
de différents genres de parole tout en suivant les propositions développées
dans le cadre des modèles formels de la prosodie du français, la
méthodologie que nous proposons permet d’une part de tester
empiriquement la validité des règles de bonne formation des constituants
de différents rangs qui composent la structure prosodique du français;
d’autre part, de discuter, de valider ou de reformuler, le cas échéant, ces
règles.
L’article est organisé de la façon suivante. Dans une première partie, nous
récapitulons dans les grandes lignes les principaux acquis sur
l’accentuation et le phrasé du français, formulés dans les travaux d’auteurs
travaillant dans le cadre de la Théorie Prosodique 2 . Nous présentons
ensuite une procédure expliquant comment ceux-ci peuvent être appliqués
à de la parole qui ne soit pas forcément lue. Dans un troisième temps, nous
synthétisons les principaux résultats obtenus à partir de l’analyse de
corpus annotés selon cette procédure, et discutons enfin de ce que le
traitement semi-automatique peut permettre de modifier ou de falsifier
dans ces modèles à la lumière des corpus.

2. Rappels

2.1 L’accentuation du français


2.1.1. En français, le domaine d’assignation de l’accent primaire n’est pas
le mot lexical, comme c’est le cas dans la plupart des langues romanes
(Martin, 2004), mais le groupe clitique (désormais GC), unité définie par
Garde (1968) comme un syntagme minimalement composé d’un mot lexical
et de tous les morphèmes grammaticaux qui en dépendent. La place de
l’accent primaire est dite fixe (Fouché, 1933; Delattre, 1939), car l’accent
primaire tombe systématiquement, en français, sur la dernière syllabe
masculine des GC3, comme l’illustrent la phrase construite et sa transcri-
ption phonémique (1), où les GC sont indiqués par des parenthèses, et les
syllabes assorties d’un accent primaire sont précédées du symbole " » ":
(1) (les enfants)GC (lui ont dit)GC (donne-le-lui)GC (il le faut)GC
lezA)»fA) lÁiç)»di dçnl´»lÁi ill´»fo
Ces spécificités de l’accent primaire du français par rapport aux langues
romanes, où il a une fonction lexicalement distinctive (puisqu’il fait partie

2
Cf. Selkirk (1978, 1984); Verluyten (1982); Nespor & Vogel (1986); Delais-Roussarie (1995,
2005); Post (2000, 2011); Delais-Roussarie et al. (2011).
3
C’est pour cette raison qu’il est souvent appelé "accent final".
Mathieu AVANZI 7

des traits phonologiques définitoires du lexème)4, ont amené de nombreux


auteurs à conclure que le français est davantage une langue "à frontière"
qu’une langue "à accent" (Rossi, 1979; Carton, 1987; Vaissière, 1990;
Beckman, 1996; Hyman, 2005).
2.1.2. Le français connaît également un autre type d’accent, dit
secondaire, initial ou non final (Mertens, 1989; Di Cristo, 1999; Astésano,
1999; Welby, 2006), qui peut frapper n’importe quelle autre syllabe du
groupe clitique. D’après les consignes de l’API, cet accent est noté " «" dans
les transcriptions:
(2) (ce film)GC (est incontournable)GC
s´»film E«tE‚kç‚tu“»nabl
(3) (jusqu’à l’entreprise)GC
Zyska«lA)t“´»p“iz
(4) (la voiture)GC (noire)GC
la«vwaty“»nwa“
(5) (or quelle puissance)GC (accordez-vous)GC (à l’acte)GC (d’écrire)GC
ç“«kElpÁi»sA)sa«kç“de»vua»lakt´de»k“i“
Comme on le voit à la lecture des exemples ci-dessus, l’accent secondaire
peut frapper la syllabe initiale, pénultième ou antépénultième d’un mot
lexical, voire un morphème grammatical. La réalisation d’un accent
secondaire est conditionnée par des contraintes rythmiques et
structurelles, essentiellement: en (2) et (3), la production d’un accent
secondaire permet d’éviter une trop longue suite de syllabes inaccentuées
(Martin, 1987); en (4), la présence d’un accent secondaire sur la syllabe
initiale du groupe clitique permet d’éviter une collision accentuelle et de
marquer la borne gauche de ce groupe (Fónagy, 1979; Lyche & Girard,
1995)5, dans l’exemple (5), emprunté à Mertens (1992: 150), la présence
d’accents secondaires sur le morphème grammatical quelle et sur la
syllabe antépénultième du second GC permet de respecter l’équilibre
métrique des intervalles contenus entre deux syllabes accentuées (Dell,
1984; Di Cristo, 2010).
2.1.3. Les règles d’assignation de l’accent secondaire étant moins
facilement prédictibles que celles de l’accent primaire, nous nous
concentrerons dans la suite de cette section sur le fonctionnement de
l’accent primaire.

4
En espagnol par exemple, c’est la place de l’accent tonique dans le mot qui permet de
distinguer, pour certains verbes, les personnes, temps et modes. Ainsi, les formes [kanto] ou
[kante] signifient "je chante" et "que je chante" lorsque la première syllabe est accentuée
[»kanto]/[»kante]; "il chanta" et "je chantais" lorsque la seconde syllabe est accentuée
[kan»to]/[kan»te].
5
L’analyse de cet exemple est détaillée infra, cf. (10) infra.
8 Note de recherche sur l’accentuation et le phrasé prosodique

2.2 Modalités de formation du groupe accentuel


2.2.1. Les accents primaires délimitent les bornes droites d’unités
prosodiques minimales qu’il convient de nommer groupes accentuels
(désormais GA)6. L’exemple (1), que nous reproduisons ci-dessous en (6),
contient autant de GC que de GA:
(6) (les enfants)GC (lui ont dit)GC (donne-le-lui)GC (il le faut)GC
[lezA)»fA)]GA [lÁiç)»di]GA [dçnl´»lÁi]GA [ill´»fo]GA
2.2.2. Toutefois, dans les productions des sujets parlants, tous les GC ne
sont pas systématiquement assortis d’un accent primaire. Examinons, pour
mieux comprendre cet état de fait, les exemples (7) et (8) ci-dessous.
Comme le montrent les différents découpages proposés sous (a) et (b), Le
nombre d’accents primaires peut varier d’une phrase à l’autre, selon sa
prononciation:
(7) (ma mère)GC (viendra)GC (me voir)GC (demain)GC
(a) [ma»mE“]GA [vjE)»d“a]GA [m´»vwa“]GA [d´»mE)]GA
(b) [mamE“vjE)d“am´vwa“d´»mE)]GA
(8) (la maîtresse)GC (du Président)GC
(a) [lamE»t“Es]GA [dyp“ezi»dA)]GA
(b) [lamEt“Esdyp“ezi»dA)]GA
Si le débit du locuteur est lent, on peut prédire que tous les GC de la phrase
(7) seront assortis d’un accent primaire, ce qu’illustre le découpage en (a).
Si le débit est rapide ou très rapide, on peut prévoir que le locuteur produira
un seul accent primaire, soit un seul GA (cf. (b))7. Selon que le locuteur qui
prononcera la phrase (8) veuille souligner le lien sémantique entre deux
termes ou non, il produira un ou deux accents primaires, étant donné que
grouper deux termes dans une même unité intonative permet d’en renforcer
la connexion).
2.2.3. Les faits de non-accentuation que l’on rencontre en français ne sont
pas tous dus à un débit rapide ou à des contraintes de cohésion
sémantique. Certains sont dictés par des principes de restructuration
phonologiques codés dans la grammaire du français. Nous en présenterons
deux principaux8.

6
Dans la littérature, la terminologie abonde pour nommer une telle unité: mot prosodique,
syntagme phonologique, syntagme accentuel, groupe rythmique, groupe intonatif, etc.
(Lacheret-Dujour & Beaugendre, 1999).
7
Cf. Fougeron & Jun (1998) et Post (2011).
8
D’autres principes entrent également en ligne de compte. Ainsi, le principe d’eurythmie
(Dell, 1984 ; Martin, 1987; Delais-Roussarie, 1996), qui stipule que dans une séquence
donnée, les GA tendent à être de même longueur, peuvent expliquer certains phénomènes
de non-accentuation en français. Le nombre de syllabes non-accentuées est également
contraint (d’après Delais-Roussarie (1996), les groupes de plus trois syllabes sont rares,
selon Martin (1987), la taille maximale d’une suite de syllabes non-accentuées est de 7).
Nous ne présentons pas plus en détails ici ces principes.
Mathieu AVANZI 9

Align-XHead
Dans la Théorie Prosodique, on part de l’hypothèse que les bords droits des
unités prosodiques que nous avons nommées GA s’alignent sur des
frontières droites de constituants syntaxiques X’ (Verluyten, 1982; Selkirk,
1984; Nespor & Vogel, 1986; Delais-Roussarie, 1996; Post, 2000). Appliquée
au français, cette contrainte d’alignement entre structure prosodique et
structure syntaxique, connue sous le nom d’Align-XHead, stipule, entre
autres, qu’un adjectif antéposé à un nom lexical ne génère pas d’accent
primaire (nonobstant son statut de morphème lexical) parce qu’il est
dominé par le même nœud que ce dernier dans la représentation
syntaxique.
Considérons l’exemple (9) pour mieux comprendre de quoi il s’agit. D’après
la segmentation en GC, on prédit que le syntagme sera produit en deux GA,
comme l’illustre (a). L’application de la règle Align-XHead commande
cependant que l’adjectif ne soit pas accentué, et donc que l’ensemble ne
forme qu’un seul et unique GA, comme l’illustre (b):
(9) (les jolis)GC (pantalons)GC
(a) [leZo»li]GA [pA)ta»lç)]GA
(b) [leZolipA)ta»lç)]GA
*Clash
Le second principe est connu sous le nom de *Clash (que l’on traduit en
français par "non-collision accentuelle", cf. Verluyten (1982); Selkirk
(1984); Dell (1984); Nespor & Vogel (1986); Delais-Roussarie (1996); Post
(2000)). Il stipule que deux syllabes adjacentes ne peuvent pas être toutes
deux assorties d’un accent primaire. Dans le SN (10), l’adjectif constitue un
GC indépendant du nom qu’il suit, et devrait donc générer un accent en
cette vertu (a). Cependant, pour respecter l’équilibre métrique entre
syllabes fortes et syllabes faibles, la règle *Clash prédit que le premier GC
ne génère pas d’accent final, et qu’on observera préférentiellement le
découpage proposé en (b) ou en (c):
(10) (la voiture)GC (noire)GC
(a) [lavwa»ty“]GA [»nwa“]GA
(b) [lavwaty“»nwa“]GA
(c) [la«vwaty“»nwa“]GA
Noter que ces deux principes ne sont ni exclusifs ni contradictoires,
puisque dans des exemples tels que (11), où un adjectif précède un lexème
monosyllabique, l’un comme l’autre principe prédit la non-accentuation du
premier terme:
(11) (un beau)GC (chat)GC >> [ø‚bo»Sa]GA
10 Note de recherche sur l’accentuation et le phrasé prosodique

Précisons enfin que la désaccentuation de la dernière syllabe du premier


lexème, comme dans (10)(b) ou que le recul d’accent (accentuation de la
pénultième au lieu de la syllabe finale, cf. (10)(c) ne sont pas les seuls
stratégies possibles pour éviter une collision accentuelle (Martin, 1987;
Mertens, 1992). La désaccentuation de la première syllabe en vue de son
intégration prosodique dans le GA subséquent, cf. (12), l’insertion d’un
schwa ou d’une pause entre les deux syllabes, cf. (13) et (14),
respectivement; constituent autant de stratégies utilisées par les sujets
parlants en vue d’éviter la succession de deux syllabes accentuées
consécutives:
(12) (les mêmes)GC (villes)GC >> [lemEm»vil]GA
(13) (une autre)GC (vie)GC >> [yn»ot“´]GA [»vi]GA
(14) (une journée) GC (chaude) GC >> [ynZu“»ne]GA # [»Sod]GA
2.2.4. Nous rappellerons, avant de conclure cette sous-section, que dans
les travaux sur la phonologie prosodique du français, le GA a également été
défini comme un "domaine", au sens que la grammaire générative donne à
ce terme (Delais & Fougeron, 2004). Dans cette optique, le GA constituerait
ainsi le domaine de réalisation obligatoire de "sandhis", tels que la liaison
et l’enchaînement. Les phénomènes de sandhi seraient significativement
moins fréquents (Post, 2000; Scarborough & Jun, 2003), sinon interdits
(Selkirk, 1978; Nespor & Vogel, 1986), entre deux GA9.

2.3 Modalités de formation du syntagme intonatif


2.3.1. Dans une phrase donnée, tous les GA ne sont pas ponctués de
proéminences accentuelles de même force. Partant, ils ne délimitent pas
des groupes prosodiques de même rang. Le nombre de niveaux et d’unités
qu’il convient de délimiter entre le GA et l’énoncé phonologique fait encore
débat dans la littérature, de même que les critères qui entrent en jeu dans
leurs définitions (Michelas, 2011). Nous présenterons une unité dont
l’existence fait consensus, et que l’on a l’habitude de nommer syntagme
intonatif (désormais SI).
2.3.2. Dans les approches guidées par des critères extra-phonologiques
que constituent les indices syntaxiques et relatifs à la structure
informationnelle (Delais-Roussarie, 2005; Delais-Roussarie et al., 2011;
Selkirk, 2011; Post, 2011), le SI correspond à un "domaine dont l’extension
est la phrase racine" (Delais-Roussarie & Post, 2008). L’exemple (1) supra,
reproduit sous (15), serait donc de ce point de vue constitué de trois SI:

9
Cette hypothèse du GA comme domaine de réalisation des sandhis doit être appréhendée
prudemment. À la lumière de résultats obtenus à partir de l’examen de corpus de parole
continue (discours politiques, parole radiophonique), Fougeron & Delais-Roussarie (2004) et
Sterling-Miller & Fagyal (2005) remettent en cause l’idée selon laquelle la réalisation des
phénomènes de sandhis serait systématiquement contrainte par le phrasé en GA.
Mathieu AVANZI 11

(15) (les enfants) (lui ont dit) (donne-le-lui) (il le faut)


{[lezA)»fA)]GA [lÁiç)»di]GA}SI {[dçnl´»lÁi]GA}SI {[ill´»fo]GA}SI
Les constituants que l’on étudie dans les grammaires du français parlé
sous les étiquettes de dislocations ou d’incises (Avanzi, 2012), étant par
définition syntaxiquement exclus de la phrase racine, génèreraient ainsi
des syntagmes intonatifs indépendants de leur base:
(16) (les enfants)GC (ils n’aiment pas)GC (la soupe)GC
{[lezA)»fA)]GA}SI {[ilnEm»pa]GA (la»sup]GA}SI
(17) (les enfants)GC (je pense) (lui offriront)GC (des fleurs)GC
{[lezA)»fA)]GA}SI {[Z´»pA)s]GA}SI {[lÁiof“i»“ç)]GA [de»flø“]GA}SI
2.3.3. Dans les approches guidées par la réalisation physique des
phénomènes prosodiques (Jun & Fougeron, 2002), le SI est défini comme un
groupe prosodique comprenant minimalement un GA, lequel est assorti
d’un accent nucléaire. En français, les accents nucléaires sont marqués par
un mouvement mélodique majeur, montant, descendant ou montant-
descendant (Portes, 2004), un allongement relatif et la présence d’une
pause après (D’Imperio et al., 2007; Portes & Bertrand, 2011). Ils présentent
la particularité d’être "contourogènes", c’est-à-dire de générer "une
configuration mélodique identifiable (perceptivement et linguistiquement)
comme un contour" (Di Cristo, 2010). Comme les critères syntaxiques
n’entrent pas en jeu dans cette approche, l’énoncé (17) supra génèrera,
selon que les frontières gauche et droite de l’élément adjoint sont assorties
de contours nucléaires ou non, trois, deux ou un seul SI, cf. (a), (b) et (c),
respectivement, cf. (18):
(18) (les enfants)GC (je pense)GC (lui offriront)GC (des fleurs)GC
(a) {[lezA)»fA)]GA}SI {[Z´»pA)s]GA}SI {[lÁiof“i»“ç)]GA [de»flø“]GA}SI
(b) {[lezA)»fA)]GA [Z´»pA)s]GA}SI {[lÁiof“i»“ç)]GA [de»flø“]GA}SI
(c) {[lezA)»fA)]GA [Z´»pA)s]GA [lÁiof“i»“ç)]GA [de»flø“]GA}SI
2.3.4. Notons pour finir que, comme c’était le cas des GA, les SI
constituent des domaines d’application de règles phonologiques bien
précises. Sont reconnues comme relevant du domaine du SI les
phénomènes de downstep (déclinaison progressive de la F0 et des cibles
tonales), de même que les réinitialisations mélodiques (remises à zéro de la
ligne de déclinaison)10.

2.4 Synthèse

À un premier niveau, les accents primaires délimitent des unités


prosodiques minimales que l’on appelle, dans la littérature, mots
prosodiques, mots rythmiques, syntagmes accentuels, et que nous avons

10
Sur ce point, cf. Ladd (2008) et Portes & Bertrand (2011).
12 Note de recherche sur l’accentuation et le phrasé prosodique

nommées groupes accentuels, (ou GA), à l’intérieur desquelles s’appliquent


des règles de restructuration phonologiques telles Align-XHead et *Clash,
et se réalisent les sandhis. Ces domaines mineurs que constituent les GA
se regroupent dans des domaines majeurs que nous avons nommés
syntagmes intonatifs (ou SI), et que l’on peut définir soit sur la base de
critères syntaxiques et informationnels (il s’agit grosso modo des
constituants disjoints ou incidents par rapport à la phrase racine); soit sur
la base de critères tonals et temporels, si on se base sur des critères
réalisationnels.

3. Propositions d’annotation

Nous venons de synthétiser les principes fondamentaux qui sous-tendent


le fonctionnement de l’accentuation et du phrasé en français. Nous allons à
présent formuler quelques propositions en vue de voir comment transcrire
ces phénomènes dans les corpus de français.

3.1 Proéminences

L’identification de la structure prosodique d’un énoncé donné repose sur la


mise au jour des syllabes fortes et faibles qui s’y agencent: c’est en effet
aux syllabes métriquement proéminentes que sont associées en français
les frontières de GA11. Depuis quelques années, les contributions relatives
à l’annotation des proéminences dans les corpus oraux ont connu un essor
considérable (Avanzi, 2012: 61 sqq.; Lacheret & Simon, 2013). Nous avons
développé, avec d’autres collègues, dans le cadre de projets visant à la
constitution de corpus annotés prosodiquement, une méthodologie
d’annotation des proéminences basée sur la perception (Avanzi et al., 2007,
2010, à par.). Brièvement résumé, le protocole que nous suivons est le
suivant. Le travail se fait directement dans Praat (Boersma & Weeninck,
2012), sur un corpus préalablement aligné en syllabes (Goldman, 2011).
Deux experts natifs du français participent à la première étape, qui
consiste à annoter les proéminences. Pour que l’exercice se fasse, autant
que possible, sur des bases perceptives, les informations acoustiques
(évolution de la F0, spectre) sont masquées. Les deux codeurs commencent
d’abord par annoter un court extrait ensemble: cet entraînement est
nécessaire pour que les experts se mettent bien d’accord sur ce qu’ils
entendent par "proéminence". Ils codent ensuite les fichiers chacun de leur
côté. Dans un premier temps, il leur est demandé, dans une tire dédiée, de
noter "P" les syllabes perçues comme fortement proéminentes.
L’identification de ces syllabes leur sert de repère interne pour délimiter
des sous-fenêtres, à l’intérieur desquelles ils vont ensuite noter "p" les
11
Dans l’usage que nous en faisons, le terme de proéminence renvoie aussi bien aux accents
non finaux qu’aux accents finaux (cf. Avanzi, 2012 : 61 sqq.).
Mathieu AVANZI 13

syllabes perçues comme faiblement proéminentes et "H" les syllabes


associées à une disfluence (euh ou allongement lié à une hésitation,
rupture syntaxique, etc.). Une fois l’ensemble des corpus annoté par les
deux experts, les tires d’annotation sont comparées et les codages
divergents sont réglés par un troisième expert, en vue d’aboutir à une tire
de codage de référence, cf. Fig. 1:

Fig. 1: Copie d’écran Praat. Transcription et codage d’un énoncé de parole spontanée, "maintenant –
euh le celui qu’y avait derrière l’ordinateur", prononcé par un locuteur genevois âgé de 55 ans. Avec, de
haut en bas les tires de segmentation en phonèmes, en syllabes, les tires d’annotation des
proéminences des deux premiers experts (les syllabes perçues comme proéminentes sont codées "p"
ou "P"12, les syllabes associées à une disfluence sont codées "H"), la tire qui affiche les divergences
entre les deux premiers codeurs et la tire de référence corrigée par le troisième expert, tire de
segmentation en mots graphiques et en énoncés.

Le taux d’accord entre deux codeurs dépend de nombreux facteurs,


notamment de l’entraînement préalable au protocole, du degré d’expertise
des codeurs, du type de données, etc.13

3.2 Groupes accentuels

Nous avons défini le GA comme un GC assorti d’une proéminence sur son


bord droit. Pour segmenter une production donnée en GA, il faut donc
identifier d’abord les GC et croiser ensuite les résultats avec la tire de
codage des proéminences, comme le montre la Fig. 2 ci-dessous.

12
La distinction entre "p" (proéminence faible) et "P" (proéminence forte) a une valeur
heuristique: elle force les codeurs à procéder à une écoute plus fine. Dans la tire de codage
finale, les syllabes "p" et "P" sont traitées comme un seul et même événement, cf. Avanzi et
al. (2007).
13
Dans les diverses expériences que nous avons menées, nous avons établi que le taux
d’accord, exprimé en termes de "kappa score" entre deux experts entraînés pouvait varier
entre 0.6 et 0.8. Pour une discussion des taux d’accord entre annotateurs, cf. Avanzi (2012 :
70).
14 Note de recherche sur l’accentuation et le phrasé prosodique

Fig. 2: Copie d’écran Praat. Transcription et codage du même extrait que celui de la Fig. 1. Avec, de haut
en bas les tires de segmentation en phonèmes, en syllabes, tires d’annotation des proéminences, des
GC et des GA, tires de segmentation en mots graphiques et en énoncés.

Or, si dans la majorité des cas le découpage d’un texte en GC ne pose pas
de problème, comme c’est le cas ci-dessus, il y a des contextes dans
lesquels l’identification des GC n’est pas évidente (§3.2.1.) et d’autres où la
mise en rapport du des GC avec la tire d’annotation des proéminences pose
des problèmes théoriques (§3.2.2.). Quant aux disfluences, des questions
se posent quant à leur statut prosodique (§3.3.3.)
3.2.1. Le découpage d’une séquence donnée en GC nécessite de faire la
part entre les morphèmes lexicaux et les morphèmes grammaticaux. Or,
une telle classification n’est pas toujours facile à effectuer. En effet, selon
les grammaires, les conjonctions et les adverbes, qui entrent dans des
paradigmes "fermés", sont à classer dans la catégorie des morphèmes
grammaticaux, ils ne génèrent donc pas d’accents primaires:
(19) or, un gros détachement de police
(20) jusqu’ici, les seuls titres de gloire de Beaulieu
Les syllabes accentuées soulignées dans les exemples ci-dessus
marquent-elles le bord droit d’un GA ou constituent-elles des accents
secondaires ? Dans les contextes où elles sont prononcées, elles sont
souvent suivies de pauses silencieuses, qui constituent en français des
indices de fins de groupe relativement sûrs. Partant, nous avons choisi,
dans nos codages de les considérer comme des bornes de GC14.
L’identification des GC nécessite également que l’on sache quel statut
accorder aux lexies semi-figées ci-dessous. Les syntagmes ci-dessous
doivent-ils être analysés comme composés de plusieurs mots lexicaux,

14
Pour une discussion, voir Goldman et al. (2010). Mertens (2004) dresse l’inventaire des mots
accentuables et des mots non accentuables.
Mathieu AVANZI 15

comme le montre la transcription graphique, ou comme formant un seul et


même GC ? En d’autres termes, dans les exemples ci-dessus, les mots
graphiques dont la syllabe finale est accentuée constituent-ils des
morphèmes lexicaux autonomes ou non ?
(21) le premier ministre
(22) les jeux olympiques
(23) l’an quinze cent quatre-vingt
Dans un cas comme dans l’autre, il n’y a pas de solution clef en main et des
décisions – arbitraires – doivent être prises par l’analyste.
3.2.2. Un deuxième point de discussion concerne les contextes où l’on
peut observer une succession de deux accents primaires, comme dans les
exemples suivants:
(24) ils ne me croiront pas
(25) il n’en parle plus
Sur le plan grammatical, selon Garde (1968), on aurait affaire dans les deux
cas à un seul GC, donc à un seul GA. Pour notre part, nous avons pris le
parti de considérer, dans ces cas précis, que l’on avait affaire à deux GA.
Nous interprétons en effet la non-accentuation du lexème nominal
attendue conditionnée par un phénomène de restructuration, lié à
l’évitement d’une collision accentuelle (cf. supra, §2.2).
3.2.3. Reste enfin à discuter du statut des disfluences dans le découpage
en GA. Puisqu’elles constituent, par définition, des marqueurs d’abandon
ou d’hésitation dans une structure en cours, nous avons pris le parti de ne
pas les considérer comme les délimiteurs de GA bien formés. Ainsi, une
disfluence est toujours à raccrocher à un GA (cf. Fig. 2 supra). Dans les cas
où la disfluence est suivie d’une pause et que les syllabes abandonnées ne
peuvent pas être rattachées à un GA existant, nous avons choisi d’identifier,
dans la tire des GA, la séquence avec un marqueur spécifique, pour ne pas
la considérer comme un GA bien formé et ainsi l’exclure des analyses.

3.3 Syntagmes intonatifs

Il n’y a pas d’isomorphisme direct entre syntaxe et prosodie, aussi des


désaccords dans la délimitation des SI peuvent se faire sentir selon que
l’on s’inscrit dans une approche guidée par la syntaxe ou dans une
approche guidée par les réalisations. Étant donné le choix d’une méthode
inductive qu’impose une recherche basée sur corpus, nous nous inscrivons
dans le second paradigme, dans une approche guidée par les réalisations.
Notre proposition de découpage en SI repose sur une catégorisation
automatique de la force des proéminences de groupes. Cette
catégorisation se fait dans le logiciel Analor (Avanzi, Lacheret-Dujour, Obin,
Victorri, 2011a et b) et est présentée de façon détaillée dans Avanzi (2012).
16 Note de recherche sur l’accentuation et le phrasé prosodique

3.3.1. Sur la base de l’appréciation des variations de paramètres


classiques tels que la f0, la durée et la présence des pauses, ce logiciel
permet de procéder à une détection automatique des proéminences
accentuelles et d’attribuer ensuite à chacune des syllabes identifiées
comme saillantes un score qui indique son degré de force relative (entre
0/10 et 10/10). Les valeurs des seuils utilisés ont été optimisées à partir
d’un entraînement sur un corpus codé manuellement en amont. Nous ne
revenons pas ici sur les détails de fonctionnement de l’algorithme et nous
permettons de renvoyer le lecteur intéressé aux travaux mentionnés en
bibliographie, dans lesquels il est présenté très en détails. Nous dirons
simplement que deux principes fondamentaux ont guidé la mise au point de
l’algorithme (Lacheret-Dujour, 2007b). Le premier principe est un principe
de quantité et stipule que plus le nombre de paramètres acoustiques
entrant en jeu dans l’identification des proéminences est important, et plus
les seuils fixés sont dépassés, plus la proéminence est perçue comme forte.
Le second est un principe de compensation, qui rend compte de l’existence
de phénomènes de compensation entre les paramètres acoustiques qui
participent à la mise en vedette des syllabes. Par exemple, une syllabe
présentant un faible score pour un paramètre donné et un score élevé pour
un autre paramètre pourra donner lieu à la perception d’une proéminence
de même force qu’une syllabe présentant des scores moyens pour les deux
mêmes paramètres.
3.3.2. Sur la base de l’observation de plusieurs dizaines de phrases, nous
avions décidé que, pour acquérir le statut de SI, une proéminence devait
être d’une force supérieure ou égale à 4/10 (Avanzi, 2012: 116 sqq.).
Soulignons que si le critère de pause est important, il n’est pas non plus
discriminant, puisque l’on trouve des frontières de SI sans pause, comme
c’est le cas dans la Fig. 3:

Fig. 3: Copie d’écran Praat. Transcription et codage de la phrase "le premier ministre a en effet décidé
de faire étape – dans cette commune – au cours de sa tournée de la région en fin d’année", prononcée
par une locutrice genevoise de 21 ans. Avec, de haut en bas les tires de segmentation en phonèmes, en
syllabes, tires d’annotation des proéminences, catégorisation des forces de proéminence par Analor,
tires de segmentation en AP, IP, mots graphiques et en énoncés.
Mathieu AVANZI 17

Des études de perception menées sur du matériel contrôlé permettraient


sans doute d’affiner cette première approximation. Cela dit, elle est la
seule méthode dont nous disposons pour le moment dans le traitement
automatique de larges bases de données tout en tenant compte des
phénomènes de compensation à l’œuvre dans l’actualisation des
événements prosodiques.

3.4 Synthèse
La procédure de transcription que nous proposons peut être résumée en
trois étapes. Dans un premier temps, sur la base d’un corpus transcrit et
aligné minimalement en syllabes, les proéminences accentuelles sont
identifiées sur des bases perceptives. Croisée avec une segmentation du
texte en GC, l’identification des proéminences finales de groupe permet
d’identifier des GA. La catégorisation des proéminences selon leur force
dans le logiciel Analor permet enfin de mettre au jour les frontières
prosodiques associées à une frontière prosodique majeure et donc
d’identifier les SI.

4. Premiers résultats

Nous avons appliqué cette procédure d’annotation à de nombreux corpus


et extraits de corpus. Cela nous a permis d’aboutir à des conclusions
intéressantes quant au fonctionnement de l’accentuation et du phrasé
prosodique en français. Nous présentons, ci-dessous, les résultats de deux
études visant à évaluer la robustesse des règles phonologiques exposées
supra en vue de prédire, dans les corpus, les frontières de GA (§4.1) et les
frontières de SI (§4.2)15.

4.1 Sur le respect des règles phonologiques de bonne formation du GA


4.1.1. Le corpus sur lequel la première étude a été conduite est un corpus
échantillonné pour l’étude de la variation régionale. Il comprend des
enregistrements réalisés dans le cadre du projet PFC (Durand et al., 2002,
2009), récoltés dans 4 villes de Suisse romande (Genève, Martigny, Nyon et
Neuchâtel), ainsi qu’à Paris et en Île-de-France. 8 locuteurs par points
d’enquête (autant d’hommes que de femmes, diverses tranches d’âge, tous
comparables statistiquement) ont participé aux enquêtes. Pour chacun des
locuteurs, un extrait de 3 minutes de parole spontanée monologique et la
lecture d’un texte d’une même durée ont été analysés. Au total, 2 heures de
parole lue et 2 heures de parole spontanée ont été annotées selon la
méthodologie exposée dans les pages ci-dessus16. Nous avons également
15
Voir Avanzi, Bordal & Obin (2011); Avanzi, Dubosson, Schwab & Obin (2012) ainsi que Bordal
et al. (2012) pour une application de la méthode à des données de français en contact.
16
Une présentation plus détaillée du corpus peut être consultée dans Avanzi, Schwab et al.
(2012).
18 Note de recherche sur l’accentuation et le phrasé prosodique

codé dans une tire spécifique les sites où la contrainte Align-XHead (qui
stipule qu’un adjectif en position pré-nominale ne génère pas d’accent
primaire17) et la contrainte *Clash18 (qui stipule que deux accents primaires
ne peuvent pas être consécutifs, cf. supra (10)-(14) pour des exemples)
étaient censées s’appliquer. Nous avons ensuite croisé ces codages avec
les informations de la tire "prom"19 et calculé le nombre de fois où la règle
était respectée.
4.1.2. Le texte lu par les 40 locuteurs de notre corpus contient 8 SN ayant
la structure [dét + adj + N], soit 320 sites au total. Dans la partie spontanée
du corpus, on dénombre 124 de ces sites. Dans la parole lue, on constate
que la règle est violée 261/320 fois (81.5%); dans la parole spontanée, la
règle est violée 80/124 fois (66.6%). Des tests statistiques montrent qu’il
n’y a pas d’effets de région (χ2 (4, n = 443) = 0.339, n.s.): les locuteurs
accentuent et désaccentuent les adjectifs préposés dans la même
proportion, qu’ils soient originaires d’une des 4 villes de Suisse romande ou
de Paris. On observe en revanche un effet du genre de parole (χ2 (1, n =
437) = p < 0.001): la contrainte est davantage respectée dans les
conversations qu’en lecture.
4.1.3. Le texte lu par les 40 locuteurs de notre corpus contient 10 sites où
la contrainte *Clash est susceptible de s’appliquer, soit 400 sites au total.
Dans la partie spontanée du corpus, on dénombre 183 sites de clashes
potentiels. Dans la parole lue, la règle est respectée 249/400 fois (62.25%),
dans la parole spontanée, la règle est respectée pour 126/183 des
contextes (68.85%). Comme précédemment, nous n’observons aucun effet
de l’origine des locuteurs (χ2 (4, n = 556) = 0.494, n.s.). Nous n’observons en
revanche pas d’effet du genre de parole: la règle est respectée dans la
même proportion dans les lectures que dans les conversations (χ2 (1, n =
583) = 0.073, n.s.).

4.1.4. Discussion

Dans sa thèse de doctorat, Delais-Roussarie affirme que "sur l’ensemble


des données étudiées, nous n’avons jamais rencontré deux syllabes
contiguës accentuées" (1996: 97). Elle observe également que les frontières

17
Selon Delais-Roussarie (1996: 101), entrent également sous le couvert de cette règle les
adverbes comme « bien, très, beaucoup, trop ». Nous avons préféré ne pas prendre en
compte ces cas dans les comptages, leur non-accentuation pouvant être due à leur statut
de morphème grammatical (cf. supra, §3.2).
18
Pour plus de prudence, nous avons exclu des comptages les cas où le premier élément du
syntagme pour le site de clash était un verbe auxiliaire (être, avoir) ou semi-auxiliaire (aller,
pouvoir, devoir, falloir, etc., sur ce point cf. Blanche-Benveniste, 2001), dans la mesure où
leur statut de mot lexical générateur d’accent primaire est controversé.
19
Seules les syllabes correspondant aux bords droits des éléments lexicaux impliqués dans
les syntagmes entrant sous le couvert des règles Align-XHead et *Clash ont été considérés.
Nous avons pris le parti de considérer ces syllabes comme potentiellement génératrices
d’accents primaires.
Mathieu AVANZI 19

droites de ce que nous appelons GA coïncident systématiquement, dans


plus de 90% des données, à des frontières droites de constituants X’
(Delais-Roussarie, 1996: 126). Dans une étude de phrases lues, Post (2011)
observe que sur un corpus de phrases contrôlées, qu’il n’était pas
impossible que les adjectifs pré-nominaux génèrent une frontière de GA
(70/493 SN), à condition que les adjectifs soient composés de plus d’une
syllabe.
Une série d’indices remettent en cause le statut phonologique de la règle
de non-accentuation des adjectifs pré-nominaux. Contrairement à ce que
l’on aurait pu attendre, c’est dans les conversations que la règle est le
mieux respectée, et pas en lecture (l’idée étant que les théories
phonologiques ont été construites sur la base de phrases lues). Cette
différence s’explique peut-être par l’existence de différences significatives
de vitesse d’articulation entre la partie lecture et la partie conversation de
notre corpus. Nous en effet avions montré dans un travail précédent que
les locuteurs de notre corpus articulent plus rapidement en conversation
qu’en lecture (Avanzi, Schwab et al., 2012). Une mesure du taux de
proéminences dans les deux parties susmentionnées du corpus révèle un
taux de proéminence plus important en lecture qu’en conversation, et ce,
peu importe la région des locuteurs. Des analyses supplémentaires
devraient permettre de valider l’effet de la vitesse d’articulation et du ratio
de proéminences. Quant aux raisons qui permettent d’expliquer les forts
taux de non-respect de la règle, ils nous semblent que leur nature est à
chercher dans la métrique et la sémantique. Elordieta et al. (2003)
montrent ainsi des constituants métriquement lourds ont tendance à être
phrasés séparément malgré les contraintes de branchement syntaxique qui
peuvent les caractériser. Le sémantisme des lexèmes doit également être
considéré. Il est difficile de ne pas accentuer des adjectifs comme
immense, grand, énorme, etc., tant ils sont marqués de part leur contenu
sémantique (Lacheret-Dujour & Morel, 2011). Il reste enfin à voir pour les
cas qui ne peuvent pas être expliquées par ces deux dernières raisons, s’il
ne s’agit pas d’une désaccentuation due à un évitement de collision
accentuelle.
Il est plus difficile de remettre en cause la pertinence phonologique de la
règle de *Clash, qui est respectée dans les mêmes proportions qu’il
s’agisse de données de lecture ou de conversation. Pour expliquer les viols
de cette règle, des raisons sémantiques du même ordre que celles
proposées précédemment peuvent être invoquées (Santerre, 1990):
certains mots ont tendance à être accentués en raison de leur contenu
sémantique. Il nous semble que la question de fond n’est pas d’expliquer
pourquoi cette règle est violée, mais plutôt comment cela est possible. Les
pistes de recherches proposées par Bordal & Lacheret-Dujour (2011) (mais
cf. déjà Mertens (1992)), argumentent que les collisions accentuelles sont
possibles à condition que les tons mélodiques qui assortissent les
20 Note de recherche sur l’accentuation et le phrasé prosodique

proéminences adjacentes n’aient pas le même profil, nous semblent devoir


être approfondies davantage.

4.2 Sur la nature des relations entre syntaxe et prosodie dans la


formation du SI
4.2.1. Le corpus sur lequel se base la seconde étude présentée dans cet
article est composé de près de 800 énoncés, extraits de divers corpus de
français parlé spontané (cf. Avanzi, 2012: chap. 4 et 5). Les énoncés choisis
respectaient des patrons segmentaux bien précis, à savoir:
(26) Dislocations à gauche
SNi proi V
ma mère elle mange
(27) Incises finales
Proi V SXi
elle mange ma mère
P CV
il est venu je crois
il est venu elle me dit
SX CV
trente ans j’ai
Les auteurs qui travaillent dans une approche guidée par les hypothèses
extra-phonologiques prédisent que, en raison de l’isomorphisme supposé
entre syntaxe, prosodie et structure informationnelle, de telles phrases
contiendront à leur nœud d’articulation syntaxique une frontière
prosodique majeure obligatoire, qui correspondrait à une frontière de SI.
4.2.2. L’étude de 441 dislocations à gauche telles que (26), a permis de
conclure qu’un constituant périphérique à gauche n’était pas toujours isolé
de sa base par une frontière prosodique de SI. Les résultats montrent que
seulement environ 30% des occurrences du corpus est assorti d’une telle
frontière. Sur les 70%, on observe même que la frontière prosodique n’est
même pas celle d’un GA puisque le SN disloqué n’est pas assorti d’une
proéminence (environ 15% des SN du corpus étudié).
4.2.3. L’étude des incises finales du type (27) supra a été conduite à partir
d’une collection de 347 exemples. Leur analyse a amené à conclure que ces
segments entretenaient d’un point de vue prosodique divers degrés de
rattachement avec leur base. Dans les cas les mieux décrits dans la
littérature, qui sont aussi les cas plus fréquents dans le corpus (267/347
items, soit environ 77% du total), les éléments détachés à droite forment
des SI autonomes postfixés à leur base. Les autres réalisations, plus rares,
font de l’incise soit un élément affixé à la clause matrice, avec laquelle elle
forme un seul et même SI (67/347 occurrences, soit environ 19% du total),
Mathieu AVANZI 21

soit un élément intégré prosodiquement au noyau syntaxique (113/347, soit


environ 4% du total).

4.2.4. Discussion

Les résultats obtenus permettent de valider empiriquement que


l’isomorphisme entre syntaxe et prosodie n’est pas si direct qu’on aurait pu
le croire, les SN disloqués à gauche assortis d’une frontière de SI étaient en
minorité dans le corpus d’extraits de conversations étudié. Les incises
finales sont en revanche plus sensibles à cette contrainte. Les raisons
d’être des exemples qui ne respectent pas les prédictions de la Théorie
Prosodique restent à éclaircir. On a ainsi pu montrer au sujet des
dislocations à gauche que la légèreté métrique du SN pouvait expliquer
l’absence de perception de proéminence sur son bord gauche (Avanzi,
2012), ou que les topiques réintroduits étaient plus souvent associés à une
frontière prosodique forte que les déjà actifs ou semi-actifs (Avanzi,
Brunetti & Gendrot, 2012). Quant à l’existence de dislocations à droite
intégrées prosodiquement, elle semble plus particulièrement liée à des
contraintes locales de débit et de registre: les cas de non-accentuation
rencontrés s’expliquent par le fait que les segments en incises sont
prononcés dans des contextes déjà parenthétiques, dans lesquels les
variations mélodiques et de durée sont écrasées.

5. Conclusion

Cette note de recherche avait pour principal objectif d’exposer les choix
théoriques et méthodologiques que nous avons retenus pour analyser
l’accentuation et le phrasé prosodique dans une approche basée sur
corpus. Dans un premier temps, nous avons rappelé, les principaux points
qui font consensus quant à l’accentuation du français dans la littérature.
Nous avons ensuite précisé dans les grandes lignes les modalités de
formation de deux constituants principaux de la structure prosodique, le
groupe accentuel (GA) et le syntagme intonatif (SI). Nous avons illustré la
façon dont nous avons procédé pour coder des données de parole en vue
d’analyser un certain nombre de faits en relation avec l’accentuation et le
phrasé. Nous avons enfin présenté les résultats provisoires d’une
recherche menée sur le respect des règles de désaccentuation des
adjectifs pré-nominaux (une séquelle de la règle Align-XHead appliquée à
un contexte particulier) et d’évitement de collision accentuelle (*Clash);
ainsi que les résultats obtenus dans un travail précédent sur le phrasé des
constructions de syntaxe segmentée (dislocations, incises). Les résultats
ont révélé que des règles que l’on pensait robustes ne l’étaient pas
forcément à la lumière des données, et que du travail restait à conduire
pour mieux modéliser les interactions entre les diverses contraintes pesant
sur l’accentuation et le phrasé du français.
22 Note de recherche sur l’accentuation et le phrasé prosodique

Bibliographie

Astésano, C. (1999): Rythme et discours: invariance et sources de variabilité des phénomènes


accentuels en français. Thèse de doctorat (Université d'Aix-Marseille).
Avanzi, M. (2012): L'interface prosodie/syntaxe en français. Dislocations, incises et asyndètes.
Bruxelles (Peter Lang).
Avanzi, M., Brunetti, L. & Gendrot, C. (2012): Extra-Sentential Elements, Prosodic Restructuring,
and Information Structure. A Study of Clitic-Left Dislocation in Spontaneous French.
Proceedings of Speech Prosody, non paginé.
Avanzi, M., Bordal, G. & Obin, N. (2011): Typological variations in the realization of French
Accentual Phrase. Proceedings of the 17th ICPHS, 268-271.
Avanzi, M. & Delais-Roussarie, E. (2011): Regards croisés sur la prosodie du français, special issue
of Journal of French Language Studies. Cambridge (Cambridge Universty Press).
Avanzi, M., Dubosson, P., Schwab, S. & Obin, N. (2012): Accentual Transfer from Swiss-German to
French. A Study of 'Français Fédéral'. Proceedings of Interspeech, non paginé.
Avanzi, M., Goldman, J.-P., Lacheret-Dujour, A., Simon, A.C. & Auchlin, A. (2007): Méthodologie et
algorithmes pour la détection automatique des syllabes proéminentes dans les corpus de
français parlé. Cahiers of French Language Studies, 13/2, 2-30.
Avanzi, M., Lacheret-Dujour, A., Obin, N. & Victorri, B. (2011a): Vers une modélisation continue de
la structure prosodique: le cas des proéminences syllabiques. Journal of French Language
Studies, 21, 53-71.
— (2011b): Toward a Continuous Modeling of French Prosodic Structure: Using Acoustic Features
to Predict Prominence Location and Prominence Degree. Proceedings of Interspeech,
2033-2036.
Avanzi, M.,Bordal, G., Lacheret-Dujour, A., Obin, N. & Sauvage, J. (to app.): The annotation of
prominences and syllabic disfluencies. In Lacheret-Dujour, A., Kahane, S. & Pietrandrea,
P. (eds). Rhapsodie: a Prosodic and Syntactic Treebank for Spoken French. New York
(Benjamins).
Avanzi, M., Simon, A. C., Goldman, J.-P. & Auchlin, A. (2010): C-PROM: Un corpus de français parlé
annoté pour l’étude des proéminences. Actes des 28èmes JEP, 25-28.
Beckman, M. E. The parsing of prosody. Language and cognitive processes, 11, 17-87.
Blanche-Benveniste, C. (2001): Auxiliaires de degrés de ‘verbalité’. Syntaxe et sémantique, 3, 75-
97.
Boersma, P. & Weenink, D. (2012): Praat, v. 5.3. http://www.fon.hum.uva.nl/praat/
Bordal, G., Avanzi, M., Obin, N. & Bardiaux, A. (2012): Variations in the realization of the French
Accentual Phrase in the light of language contact. Proceedings of Speech Prosody, 442-
445.
Bordal, G. & Lacheret-Dujour, A. (2011): Clashes revisited in the light of intersprosody.
Proceedings of the 17th ICPHS, 340-343.
Carton, F. (1987): Introduction à la phonétique du français. Paris (Bordas).
Delais-Roussarie, E. (1995): Pour une approche probabiliste de la structure prosodique, étude de
l’organisation prosodique et rythmique de la phrase française. Thèse de doctorat
(Université Toulouse-le-Mirail).
— (2005): Phonologie et grammaire: Études et modélisation des interfaces prosodiques. HDR
(Université Paris Diderot).
Delais-Roussarie, E. & Fougeron, C. (2004): Les notions de domaine et de constituant en
phonétique et en phonologie. Actes des 4èmes JEL, 189-196.
Delais-Roussarie, E. & Post, B. (2008): Unités prosodiques et grammaire de l’intonation: vers une
nouvelle approche. Actes des 27èmes JEP.
Delais-Roussarie, E., Yoo, H. & Post, B. (2011): Quand frontières prosodiques et frontières
syntaxiques se rencontrent. Langue française, 170, 29-44.
Delais-Roussarie, E. & Yoo, H.-Y. (2011): Transcrire la prosodie: un préalable à l’échange et à
l'analyse de données. Journal of French Language Studies, 21, 13-37.
Delattre, P. (1939): Accent de mot et accent de groupe. French Review, 13, 1-6.
Mathieu AVANZI 23

Dell, F. (1984): L’accentuation dans les phrases en français. In Forme sonore du langage: Structure
des représentations en phonologie, Dell, F., Hirst, D. & Vergnaud, J.-R. (éds), 65-122. Paris
(Hermann).
Di Cristo, A. (1999): Vers une modélisation de l’accentuation du français: première partie. Journal
of French Language Studies, 9, 143-179.
— (2010): Regards sur la prosodie du français. Première Partie: Accentuation et Phrasé
prosodique. Manuscrit (Université de Provence).
D'Imperio, M., Bertrand, R., Di Cristo, A. & Portes, C. (2007): Investigating Phrasing Levels in
French: Is there a Difference between Nuclear and Prenuclear Accents? In Camacho, J.,
Deprez, V. Flores, N. & Sanchez, L. Selected Papers from the 36th Linguistic Symposium
on Romance Languages (LSRL). New Brunswick (John Benjamins), 97-110.
Durand, J., Laks, B. & Lyche, C. (2002): La phonologie du français contemporain: usages, variétés
et structure. In Pusch, C. & Raible, W. (éds), Romance Corpus Linguistics - Corpora and
Spoken Language. Tübingen (Gunter Narr Verlag), 93-106.
— (2009): Phonologie, variation et accents du français. Paris (Hermes).
Elordieta, G., Frota, S., Prieto, P. & Vigário, M. (2003): Effects of constituent length and syntactic
branching on intonational phrasing in Ibero-Romance. Proceedings of the 15th ICPHS,
487-490.
Fónagy, Y. (1979): Le français change de visage ? Revue romane, 24, 225-254.
Fouché, P. (1933): La prononciation actuelle du français. Le français moderne, 1, 43-67.
Fougeron, C. & Delais-Roussarie, E. (2004): Fais_en à Fez_en parlant: Étude comparative de la
liaison et de l’enchaînement. Actes des 25èmes JEP, 221-224.
Fougeron, C. & Jun, S.A. (1998): Rate Effects on French Intonation: Prosodic Organization and
Phonetic Realization. Journal of Phonetics, 26, 45-69.
Garde, P. (1968): L'accent. Paris (PUF).
Goldman, J.-P. (2011): EasyAlign: an Automatic Phonetic Alignment Tool under Praat. Proceedings
of Interspeech, 3233–3236.
Goldman, J.-P., Auchlin, A., Roekhaut, S., Simon, A. C. & Avanzi, M. (2010): Prominence Perception
and Accent Detection in French. A Corpus-based Account. Proceedings of Speech Prosody,
non paginé.
Hyman, L. (2006): Word-prosodic typology, Phonology, 23, 225-257.
Jun, S. A. & Fougeron, C. (2002). Realizations of Accentual Phrase in French Intonation. Probus, 14,
147-172.
Lacheret-Dujour, A. (2003): La prosodie des circonstants. Louvain (Peeters).
— (2007a): Prosodie du discours, une interface à multiples facettes. Nouveaux cahiers de
linguistique française, 28, 7-40.
— (2007b): Séquençage et mouvements intonodiscursifs en français parlé. Cahiers de
Praxématique, 48, 183-212.
Lacheret-Dujour, A. & Beaugendre, F. (1999): La prosodie du français. Paris (CNRS-Editions).
Lacheret-Dujour, A., Kahane, S. & Pietrandrea, P. (eds). (to app.): Rhapsodie: a Prosodic and
Syntactic Treebank for Spoken French. New York (John Benjamins).
Lacheret-Dujour, A. & Morel, M. (2011): Modéliser la prosodie pour la synthèse à partir du texte:
perspectives sémantico-pragmatiques. In Neveu, F., Blumenthal, P. & Le Querler, N. (éds),
Au commencement était le verbe. Syntaxe, sémantique et cognition. Mélanges en
l'honneur du Professeur Jacques François. Bern (Peter Lang), 299-326.
Lacheret-Dujour, A. & Simon, A. C. (2013, à par.): Annotation prosodique et bases de données
phonologiques: approche basée sur l’usage. In Durand, J., Kristoffersen, G. & Laks, B.
(éds). La phonologie du français: des normes aux périphéries, Festschrift pour Chantal
Lyche pour ses 65 ans. Paris (Presses Universitaires de Nanterre).
Ladd, R. (2008): Intonational Phonology. Cambridge (Cambridge University Press).
Lyche, C. & Girard, F. (1995): Le mot retrouvé. Lingua, 95, 205-221.
Martin, P. (1987): Prosodic and Rhythmic Structures in French. Linguistics, 25, 925-949.
— (2004): L’intonation de la phrase dans les langues romanes: l’exception du français. Langue
française, 141, 36-55.
Mertens, P. (1989): L’intonation du français. De la description linguistique à la reconnaissance
automatique. Thèse de doctorat (K.U.Leuven).
— (1992): L’accentuation des syllabes contiguës. Institut vor Toegepaste Linguistik, 95/96, 145-
164.
24 Note de recherche sur l’accentuation et le phrasé prosodique

— (2004): Le Prosogramme: une transcription semi-automatique de la prosodie. Cahiers de


l’institut de linguistique de Louvain, 30, 7-25.
Michelas, A. (2011): Caractérisation phonétique et phonologique du syntagme intermédiaire en
français: de la production à la perception. Thèse de doctorat (Université de Provence).
Nespor, M. & Vogel, I. (1986): Prosodic Phonology. Dordrecht (Foris).
Portes, C. (2004): Prosodie et économie du discours: spécificité phonétique, écologie discursive et
portée pragmatique du patron d'implication. Thèse de doctorat (université de Provence).
Portes, C. & Bertrand, R. (2011): Permanence et variation des unités prosodiques dans le discours
et l'interaction. Journal of French Language Studies, 21, 97-110.
Post, B. (1999): Restructured Phonological Phrases in French: Evidence from Clash Resolution.
Linguistics, 37, 41-63.
— (2000): Tonal and Phrasal Structures in French Intonation. The Hague: Thesus.
— (2011): The multi-facetted relation between phrasing and intonation contours in French. In
Gabriel, C. & Lleó, C. (eds). Intonational Phrasing in Romance and Germanic: Cross-
linguistic and bilingual studies, 43-74. New York (John Benjamins).
Rossi, M. (1979): Le français, langue sans accent ? Studia Phonetica, 15, 13-51.
Santerre, L. (1990): La condition de non-contiguïté accentuelle en français: théorie et pratiques.
Revue québécoise de linguistique, 19, 39-56.
Scarborough, R. & Jun, S. A. (2003): Accentual Phrase and the Domain of Liaison in French.
Proceedings of the 15th ICPHS, non paginé.
Schwab, S., Avanzi, M., Goldman, J.-P., Dubosson, P. & Bardiaux, A. (2012, à par.): Étude sur la
variation régionale de la vitesse d’articulation en français. In Durand, J., Kristoffersen, G.
& Laks, B. (éds), La phonologie du français: des normes aux périphéries, Festschrift pour
Chantal Lyche pour ses 65 ans. Paris (Presses Universitaires de Nanterre).
Selkirk, E. (1978): On prosodic structure and its relation to syntactic structure. In Fretheim, T. (ed),
Nordic Prosody II. Trondheim (TAPIR), 111-140.
— (1984): Phonology and Syntax: The relation between Sound and Structure. Cambridge (MIT
Press).
— (2005): Comments on Intonational Phrasing in English. In Frota, S., Vigário, M. & Freitas, M.-J.
Prosodies. With special reference to Iberian languages (eds). Berlin/New-York (Mouton de
Gruyter), 11-58.
— (2011): The Syntax-Phonology Interface. In Goldsmith, J., Riggle, J. & Yu, A. (eds), The
Handbook of Phonological Theory. Oxford (Blackwell Publishing), 435-484.
Sterling-Miller, J. & Fagyal, Z. (2005). Phonetic cues to special cases of liaison. In Gess, R. &
Rubin, J., E. (éds), Theoretical and experimental approaches to Romance linguistics. New
York (John Benjamins), 179-196.
Vaissière, J. (1990): Rhythm, accentuation and final lengthening in French. In Sundberg, J. (ed),
Music, Language, Speech and Brain. New York (Macmillan Press), 108-121.
Verluyten, P. (1982): Recherches sur la prosodie et la métrique du français. Thèse de doctorat
(Université d'Anvers).
Welby, P. (2006): French Intonational Structure: Evidence from Tonal Alignment. Journal of
Phonetics, 34, 343-371.
Travaux neuchâtelois de linguistique, 2013, 59, 25-42

La prosodie du "français fédéral". Étude de la


vitesse d'articulation et de l'accentuation en
français L1 et L2.

Pauline DUBOSSON1, Sandra SCHWAB2, Mathieu AVANZI1


1
ISLC, Université de Neuchâtel
2
Ecole de langue et de civilisation françaises, Université de Genève

The aim of this study is to examine some prosodic features of a variety of L2 French
commonly called "français fédéral", which is a variety of French spoken by people
who have a Swiss German dialect as L1. We compared the data of 4 groups of 4
speakers: 2 groups of French native speakers (from Neuchâtel in Switzerland and
from Paris) and 2 groups of 4 Swiss German French speakers (from Bern and Zurich
but living in Neuchâtel for at least 20 years). The data were semi-automatically
processed. We examined two prosodic properties: articulation rate and accentuation.
Our findings suggest that: (i) native speakers from Paris articulate faster than native
speakers from Neuchâtel; (ii) non-native speakers articulate as fast as the native
speakers of the corresponding variety; (iii) "français fédéral" shares several features
with a lexical accentuation system rather than with a supra-lexical accentuation
system.

1. Introduction

La majorité de la population résidant en Suisse s'exprime en allemand


(63.7%); les francophones constituent une minorité linguistique (20.4%),
aux côtés des italophones (6.5%) et des romanchophones (0.5%)1 (Lüdi &
Werlen, 2005) 2 . Toutefois, l'appellation d'"allemand" ne correspond pas
tout à fait à la réalité, puisque les germanophones de Suisse ne s'expriment
pour la plupart pas en "allemand standard" (pour une discussion de ce
terme, cf. Schläper, 2000), mais dans l'un des nombreux dialectes suisses
allemands (Haas 2000: 60; Christen, 2005: 21). Par ailleurs, la situation
linguistique en Suisse favorise les contacts. Dans ce contexte, l'expression
"français fédéral" (désormais FF) a été créée pour désigner les variétés de
français influencées par le substrat germanique (Kolly, 2010). A l’heure
actuelle, si les aspects prosodiques des accents étrangers (Vieru et al.,
2011 notamment) ou des variétés de français en contact (Boula de Mareüil
et al., 2011) sont des domaines pour lesquels il existe quelques travaux, les
propriétés prosodiques qui caractérisent le FF demeurent mal connues et
l'existence de "transferts prosodiques" du suisse allemand vers le français

1
A noter que 9.0% de la population s'exprime dans une autre langue (Lüdi & Werlen, 2005).
2
Pour une présentation de la situation linguistique en Suisse, en particulier concernant le
français à l'intérieur et à l'extérieur de la Suisse romande, voir Manno (2007).
26 La prosodie du "français fédéral"

reste à démontrer. Pour tenter de combler cette lacune, nous avons mené
une étude portant sur deux phénomènes prosodiques: la vitesse
d’articulation et l’accentuation. Nous en présentons ici les résultats.

2. Etude de la vitesse d'articulation

Dans un premier temps, nous nous sommes penchés sur la vitesse


d'articulation (dorénavant VA), afin de tester s'il existe des différences de
VA entre des locuteurs natifs du français et de locuteurs du FF. La VA, l'une
des variables couramment utilisée pour examiner la dimension temporelle
d'un énoncé produit par un locuteur, constitue la vitesse à laquelle un
locuteur parle sans tenir compte des éventuelles pauses produites. Elle
peut être exprimée de plusieurs façons: la plupart du temps, on calcule le
nombre de syllabes produites par seconde (syll/sec); elle est néanmoins
parfois exprimée en ms/syll, ce qui équivaut à la durée syllabique moyenne
(Miller et al., 1984; Schwab et al., 2012a).

2.1 Travaux antérieurs


De nombreux facteurs influencent la production de la VA (cf. Schwab, 2007:
12-27 pour une revue exhaustive). L'impact de la variété régionale est un
domaine encore peu investigué et les recherches menées à ce jour ont
conduit à des résultats contradictoires. D'un côté, certains chercheurs ont
certes observé des différences entre plusieurs variétés, mais qui n'ont pas
été confirmées par les analyses statistiques. La première étude dont nous
ayons connaissance est celle de Schoch, Jolivet et Mahmoudian (non
publiée, rapportée dans Mahmoudian & Jolivet, 1984) menée dans les
années 70: les auteurs ont comparé la VA en conversation de 30 locuteurs
parisiens et de 40 locuteurs vaudois (5.29 syll/sec et 5.66 syll/sec
respectivement), mais les résultats ne se sont pas avérés statistiquement
différents. Dans une autre étude, Miller (2007) a analysé la VA en lecture de
6 locuteurs du Nord de la France et de 6 locuteurs vaudois (6.15 syll/sec et
5.70 syll/sec respectivement), sans obtenir de différence significative.
Finalement, Goldman & Simon (2007) ont comparé la VA en lecture de 11
Lyonnais, 12 Tournaisiens, 12 Nyonnais et 12 Liégeois. Toutefois, malgré
des différences observables dans les chiffres (5.48 syll/sec, 5.38 syll/sec,
5.02 syll/sec et 5.25 syll/sec respectivement), ces dernières n'ont pas été
validées statistiquement.
D'un autre côté, quelques chercheurs ont trouvé des différences
significatives entre la VA de locuteurs issus de régions différentes. C'est le
cas d'Avanzi et al. (2012) qui ont comparé le texte PFC lu par des locuteurs
de 6 variétés: 2 variétés françaises (Paris et Lyon), 2 variétés belges
(Tournai et Liège) et 2 variétés suisses (Genève et Neuchâtel); les résultats
montrent que les locuteurs de Lyon et de Paris (6.2 syll/sec et 6.1 syll/sec
Pauline DUBOSSON, Sandra SCHWAB & Mathieu AVANZI 27

respectivement) articulent plus rapidement que ceux de Genève et de


Tournai (5.5 syll/sec et 5.6 syll/sec respectivement), qui, à leur tour, sont
plus rapides que les locuteurs de Liège et de Neuchâtel (5.3 syll/sec
chacun). Schwab & Racine (2012) ont également travaillé sur le texte PFC,
lu cette fois-ci par des locuteurs de 3 variétés: elles observent elles aussi
une VA plus rapide en Île-de-France (Brunoy, 5.24 syll/sec) qu'en Suisse
(4.85 syll/sec à Neuchâtel et 4.99 syll/sec à Nyon). Enfin, Schwab et al.
(2012a) ont comparé la VA en lecture et en conversation chez des Parisiens
et des Neuchâtelois: les auteurs ont observé une durée syllabique plus
courte à Paris (190.79 ms) qu'à Neuchâtel (224.97 ms). En d'autres termes,
les Parisiens présentent une VA plus élevée (5.24 syll/sec) que les
Neuchâtelois (4.44 syll/sec)3.
Finalement, concernant la VA en français L2, là encore, les études ont
abouti à des résultats contradictoires. Barquero (2012) observe une
différence entre la durée syllabique moyenne des natifs et celle
d'hispanophones apprenants du français (199.68 ms et 236.71 ms
respectivement), autrement dit les non-natifs présentent une VA plus lente
que les natifs. Bordal et al. (2012), ayant comparé des locuteurs natifs
(Parisiens et Neuchâtelois) et des non-natifs du français (Centrafricains,
Suisses allemands et Sénégalais), obtiennent des résultats contrastés: si
les Parisiens (6.1 syll/sec) articulent plus vite que les non-natifs (4.6
syll/sec chez des Suisses allemands, 4.5 syll/sec chez des Centrafricains et
5.2 syll/sec chez les Sénégalais), la VA des Sénégalais est similaire à celle
des Neuchâtelois (5.3 syll/sec); autrement dit, certains non-natifs
articulent aussi vite que certains natifs. Enfin, Schwab et al. (2012a) ont
comparé la VA en lecture et en conversation de deux groupes de natifs
(Parisiens et Neuchâtelois) et un groupe de non-natifs (Suisses allemands):
s'ils observent une différence entre la durée syllabique moyenne des
Parisiens et des Suisses allemands (190.79 ms et 225.11 ms
respectivement), ces derniers se comportent toutefois de façon similaire
aux Neuchâtelois (224.97 ms); en d'autres termes, les Parisiens présentent
une VA plus élevée (5.24 syll/sec) que les Suisses, qu'ils soient natifs ou
non-natifs (4.44 syll/sec)4.
En outre, il est reconnu que le sexe influence la VA: les études empiriques
démontrent que les hommes présentent une VA plus rapide que les femmes
(Verhoven et al., 2004; Quené, 2005; Binnenpoorte et al., 2005; Jacewicz &
Fox, 2012; Schwab & Racine, 2012), que ce soit en conversation ou en
lecture (Schwab et al., 2012a). L'influence du sexe peut cependant varier
d'une variété à l'autre, comme l'ont démontré Schwab & Racine (2012), qui

3
Précisons que les analyses ont porté sur la durée syllabique et non sur le nombre de
syllabes par seconde, celui-ci n'ayant été calculé qu'à des fins de comparaison.
4
Là encore, les analyses ont porté sur la durée syllabique et non sur le nombre de syllabes
par seconde.
28 La prosodie du "français fédéral"

obtiennent des résultats différents selon la variété considérée (les hommes


articulant plus vite que les femmes à Brunoy et à Neuchâtel, mais pas à
Nyon).
Par ailleurs, le style de parole exerce lui aussi une influence sur la VA: la
lecture est d'ordinaire plus rapide que la conversation, en raison d'un coût
cognitif moins élevé. Toutefois, quelques études (Woehrling et al., 2008;
Schwab et al., 2012a) ont abouti à des résultats inverses: ils ont obtenu des
durées (de phonèmes ou de syllabes, respectivement) plus courtes en
conversation qu’en lecture.
Enfin, le nombre de syllabes dans le groupe prosodique affecte aussi la VA:
plus ce nombre est élevé, plus la VA augmente (i.e. la durée syllabique
diminue) (Lucci, 1983: 55-56; Bartkova, 1991; Pasdeloup, 1992; Barquero,
2012; Schwab et al., 2012a).

2.2 Corpus
Afin de tester s'il existe des différences de VA (i) entre les locuteurs natifs
de deux régions; (ii) entre les locuteurs du FF et les natifs du français; (iii)
entre différentes variétés de FF, nous avons sélectionné quatre groupes de
4 locuteurs chacun: deux groupes de locuteurs natifs, soit 4 locuteurs
parisiens (désormais PA) et 4 locuteurs de Neuchâtel en Suisse romande
(désormais NE) ; deux groupes de locuteurs du FF, soit 4 locuteurs suisses
alémaniques originaires du canton de Zurich (ci-après ZH) et 4 locuteurs
suisses alémaniques originaires des régions Emmental et Haute-Argovie
dans le canton de Berne (ci-après BE)5. Tous les locuteurs du FF sont
établis à Neuchâtel et environs depuis plus de 20 ans et parlent
quotidiennement le français, qui constitue pour eux une L26.
En vue de limiter l'influence d'autres facteurs sur l'accentuation ou la
vitesse d’articulation, nous avons contrôlé le sexe (2 hommes et 2 femmes
par variété) ainsi que l'âge de nos locuteurs (tous âgés d'au moins 55 ans).
Pour chaque locuteur, nous avons analysé des extraits enregistrés dans
deux conditions: lors de la lecture d’un texte (le texte PFC7) et lors d’une
conversation à dominante monologique (de 180 secondes environ chacun).

5
3 locuteurs zurichois sont originaires de la ville de Zurich, le 4ème est orginaire d’Uster. Les 4
locuteurs bernois sont originaires de Huttwil, Burgdorf, Etzelkofen (Fraubrunnen) et
Bützberg (Langenthal).
6
Les Parisiens et Neuchâtelois sont nés, respectivement, en Île-de-France et à Neuchâtel, où
ils ont passé toute leur vie.
7
La plate-forme Phonologie du Français Contemporain (PFC) met à disposition de la
communauté des données de français parlé dans toute la francophonie; ces données sont
notamment utilisées pour la recherche dans plusieurs domaines (phonétique, phonologie,
syntaxe, pragmatique, sociolinguistique, analyse conversationnelle, etc.). Pour plus
d’informations sur le projet, voir Durand et al. (2002, 2009).
Pauline DUBOSSON, Sandra SCHWAB & Mathieu AVANZI 29

L'ensemble des productions, d'une durée totale de 96 minutes environ, a


d'abord été transcrit orthographiquement dans Praat (Boersma & Weenink,
2012) puis aligné semi-automatiquement avec le script EasyAlign
(Goldman, 2011). Les alignements ont été corrigés manuellement par l'un
des auteurs. Deux des auteurs ont ensuite noté parallèlement, sur une base
perceptive, les syllabes associées à une proéminence et celles associées à
une disfluence (allongement dû à une hésitation, euh, interruption
syntaxique, etc.), suivant une procédure d'annotation mise en place par
Avanzi et al. (2007). L'accord entre les deux experts ayant été jugé
substantiel (κ = 0.70), une tire de comparaison a été créée et, en cas de
désaccord entre les deux premiers codeurs, un troisième expert a décidé
du statut final de la syllabe (+/- proéminent) en vue d'aboutir à une tire de
référence. En se basant sur cette dernière, un des auteurs a ensuite
identifié les groupes clitiques (Garde, 1968) dont le bord droit était assorti
d'une proéminence, marquant ainsi dans une tire dédiée les intervalles
ayant le statut de groupes accentuels (désormais GA, cf. Avanzi, ici-même).
Pour chacune des productions des 16 locuteurs (4 locuteurs x 4 variétés),
nous avons calculé le nombre de syllabes et la durée de chaque GA
contenant plus d'une syllabe, en excluant les syllabes associées à une
disfluence (ce qui représente environ 3.34% de l’ensemble des syllabes de
notre corpus). À partir de ces données, la VA a été calculée en ms/syll
(comme dans Miller et al., 1984), ce qui correspond à la durée syllabique
moyenne (en ms) dans le GA. Ainsi, dans la suite de ce travail, nous
examinons la durée syllabique moyenne (en ms) à l'intérieur du GA, tout en
gardant à l'esprit que la durée syllabique et la VA sont inversement
corrélées: une durée syllabique courte traduit une VA élevée (i.e. rapide),
alors qu'une durée syllabique longue traduit une VA basse (i.e. lente). Les
données ont été analysées au moyen d'un modèle linéaire généralisé (à
mesures répétées), avec la durée syllabique comme variable dépendante et
les prédicteurs suivants: la variété régionale (PA, NE, ZH et BE), le sexe
(hommes vs femmes), le style de parole (lecture vs conversation) et le
nombre de syllabes dans le GA.
En pratique, nous avons tenté de voir si les Suisses romands de Neuchâtel
ont une VA plus lente que les Parisiens (comme l'indiquent les résultats
obtenus par Schwab & Racine, 2012 et Schwab et al., 2012a notamment), si
les non-natifs articulent plus lentement que les natifs (cf. Barquero, 2012;
Schwab et al., 2012a) et, enfin, si les différences de VA existant entre
dialectes suisses alémaniques (cf. Leemann & Siebenhaar, 2008) se
retrouvent en français L2.
30 La prosodie du "français fédéral"

2.3 Résultats

2.3.1 Influence de la variété régionale

Les analyses statistiques montrent un effet global de la variété sur la durée


syllabique (χ2 (3) = 80.30, p < 0.001). Par ailleurs, des comparaisons
multiples (avec correction de Bonferroni) indiquent que les Suisses, qu'ils
soient natifs (NE) ou locuteurs du FF (ZH et BE) présentent une durée
syllabique similaire (228.41 ms, 243.16 ms et 234.72 ms respectivement),
plus longue que la durée syllabique des Parisiens (195.07 ms) (p < .001), ce
qu'illustre la figure 1 ci-dessous 8 . En d'autres termes, les Parisiens
présentent une VA plus élevée que les Suisses, que ces derniers soient
natifs ou non-natifs.

Fig. 1: Durée syllabique en fonction de la variété. Les barres d'erreurs correspondent à l'erreur
standard de la moyenne.

2.3.2 Influence du sexe

Les tests statistiques montrent un effet du sexe sur la durée syllabique: les
hommes présentent une durée syllabique moyenne significativement plus
courte que les femmes (215.23 ms et 235.23 ms respectivement) (χ2 (1) =
24.14, p < 0.001)9. Autrement dit, la VA des femmes est plus lente que celle
des hommes.
L'influence du sexe n'est toutefois pas similaire dans toutes les
variétés (χ2 (3) = 46.29, p < 0.001): si les hommes ont une durée syllabique
plus courte que les femmes à Paris (p < 0.001), la différence à NE et ZH
n'est pas significative. En outre, bien que l'on observe sur la figure 2 une

8
Pour permettre la comparaison avec les études précédentes, nous fournissons en note les
résultats en syll/sec; il convient toutefois de garder à l’esprit que les analyses ont été
effectuées sur les résultats en ms. La VA, exprimée en syll/sec, est de 5.64 à PA; 4.66 à NE;
4.73 à ZH; 4.42 à BE.
9
Les hommes présentent une VA en syll/sec de 4.92 et les femmes de 4.53.
Pauline DUBOSSON, Sandra SCHWAB & Mathieu AVANZI 31

différence entre les hommes et les femmes bernois elle ne s'avère pas
significative (p = .097); cela est sans doute dû à la grande variabilité chez
les femmes bernoises (cf. barres d'erreur)10.

Fig. 2: Durée syllabique en fonction du sexe et de la variété. Les barres d'erreurs correspondent à
l'erreur standard de la moyenne.

2.3.3 Influence du style de parole


Les analyses statistiques montrent un effet du style de parole sur la durée
syllabique: les locuteurs présentent une durée syllabique plus courte en
conversation qu'en lecture (211.29 ms et 239.38 ms respectivement) (χ2 (1)
= 46.27, p < 0.001), ce qu'illustre la figure 311.

Fig. 3: Durée syllabique en fonction de la tâche. Les barres d'erreurs correspondent à l'erreur
standard de la moyenne.

10
Les résultats obtenus sont de 177.77 ms/syll (5.94 syll/sec) chez les hommes et 212.36
ms/syll (5.27 syll/sec) chez les femmes à Paris; 223.86 ms/syll (4.69 syll/sec) et 232.96
ms/syll (4.52 syll/sec) à Neuchâtel; 241.90 ms/syll (4.46 syll/sec) et 244.41 ms/syll (4.44
syll/sec) à Zurich et 217.40 ms/syll (4.56 syll/sec) et 252.04 ms/syll (4.14 syll/sec) à Berne.
11
La VA, exprimée en syll/sec, est de 4.45 en lecture et 5.15 en conversation.
32 La prosodie du "français fédéral"

Précisons que cette influence est exercée de manière similaire quelle que
soit la variété; il n'y a donc pas d'interaction entre la variété et la tâche.

2.3.4 Influence du nombre de syllabes dans le GA


Les tests statistiques attestent une influence du nombre de syllabes dans
le GA sur la durée syllabique (χ2 (1) = 395.80, p < 0.001), et ce, quel que soit le
style de parole. Les figures 4 et 5 illustrent ce phénomène en conversation
et en lecture respectivement. Comme on peut l'observer, la durée
syllabique tend à diminuer (i.e. la VA à s'accélérer) avec l'augmentation du
nombre de syllabes dans le GA.

Fig. 4: Durée syllabique moyenne en fonction de la variété et du nombre de syllabes dans le GA en


conversation.

Fig. 5: Durée syllabique moyenne en fonction de la variété et du nombre de syllabes dans le GA en


lecture.
Pauline DUBOSSON, Sandra SCHWAB & Mathieu AVANZI 33

La comparaison des figures 4 et 5 montre que la tendance à la diminution


de la durée syllabique avec l'augmentation du nombre de syllabes dans le
GA est plus marquée en lecture qu'en conversation, quelle que soit la
variété (χ2 (1) = 34.39, p < 0.001). Finalement, on observe également que
l'influence du nombre de syllabes dans le GA affecte différemment les
quatre variétés (χ2 (3) = 16.68, p < 0.001), quel que soit le style de parole:
alors que la tendance est similaire dans les variétés suisses (NE, ZH et BE),
elle s'avère moins marquée à Paris.

2.4 Discussion
L'étude de la variabilité de la VA peut porter sur plusieurs aspects. Nous
nous sommes concentrés sur la variété régionale (§ 3.3.1), le sexe (§ 3.3.2),
le style de parole (§ 3.3.3) et la taille du GA (§ 3.3.4). De manière
surprenante, il n'y a pas de différence entre les locuteurs du FF et les natifs
de la variété correspondante (NE): en effet, seuls les Parisiens se
distinguent avec une durée syllabique plus courte que les trois variétés
suisses. Nous interprétons ce résultat comme une possible influence de la
durée d’exposition à la L2. Par ailleurs, les locuteurs du FF se comportent
de manière similaire, qu'ils soient bernois ou zurichois; les différences de
VA observées entre ces deux dialectes (cf. Leemann & Siebenhaar, 2008) ne
semblent donc pas se "transférer" au français.
De même, les locuteurs suisses, qu’ils soient natifs ou non-natifs, se
comportent de façon similaire concernant l'influence du sexe: ce dernier,
malgré un effet global sur l'ensemble des locuteurs, n’exerce pas
d’influence significative dans les variétés suisses. Contrairement à Schwab
& Racine (2012), nous n'obtenons donc pas de différence significative entre
les hommes et les femmes à Neuchâtel; ce résultat s'explique peut-être
par notre corpus, qui n'est constitué que de sujets âgés, contrairement à
celui de Schwab & Racine (2012).
Les trois variétés suisses se comportent aussi de manière similaire au
regard de l'influence du nombre de syllabes dans le GA, dans la mesure où
cet effet, bien que significatif, est plus marqué dans les variétés suisses
qu’à Paris.
En outre, les locuteurs des diverses variétés se comportent de la même
manière concernant l'influence du style de parole: la durée syllabique est
en effet significativement plus courte en conversation qu'en lecture, quelle
que soit la variété. Nos résultats confirment donc ceux de Schwab et al.
(2012a), mais ils s'opposent à la théorie du coût cognitif. Cela peut
s'expliquer par l'âge des locuteurs et la familiarité de la tâche: en effet, la
lecture à haute voix n'est pas une tâche courante, surtout pour des
locuteurs âgés. Rappelons enfin que nous avons exclu les syllabes
disfluentes des analyses: la question de savoir si une analyse du débit,
34 La prosodie du "français fédéral"

avec les hésitations et les pauses, mène à des résultats semblables, reste
ouverte.

3. Etude de l'accentuation

Dans un deuxième temps et dans la lignée des études antérieures portant


sur la prosodie de variétés "hybrides", où le français est en contact avec
une langue à accent lexical comme l'espagnol (Barquero, 2012), l'occitan
(Sichel-Bazin et al., 2012), l'anglais (Bullock, 2008) ou avec une langue à
tons comme le sango (Bordal, 2012), nous avons tenté de vérifier si un
transfert prosodique a lieu du dialecte L1 vers le français L2 et, par
conséquent, si le système accentuel du FF est plus proche d'un système
lexical que d'un système supra-lexical (comme c'est le cas du français, qui
présente un "syncrétisme" entre l'accentuation et l'intonation, voir Hyman,
2006; Rossi, 1979; Vaissière, 1990)12. Pour le vérifier, nous nous sommes
concentrés sur deux aspects: la distribution des proéminences et le poids
métrique des GA d'une part; la proportion dans laquelle les participants
respectent les règles phonologiques associées à la bonne formation des
groupes prosodiques minimaux d’autre part.

3.1 Travaux antérieurs


Plusieurs études se sont penchées sur l'accentuation du français par des
locuteurs suisses. Outre la place de l'accent et sa réalisation, dont il ne
sera pas question ici (cf. Knecht & Rubattel, 1984; Singy, 1996; Grosjean et
al., 2003; Woehrling et al., 2008; Schwab et al., 2009; Andreassen & Lyche,
2008; Schwab et al., 2012b), quelques études se sont intéressées aux
phénomènes traités ici. Premièrement concernant la densité accentuelle,
Avanzi et al. (2012) se sont penchés sur des variétés de français parlé en
France, en Belgique et en Suisse: le pourcentage de syllabes accentuées en
lecture s'élève à 35.0% à Paris, 36.8% à Lyon, 38.8% à Genève, 39.4% à
Liège, 40.3% à Tournai et 41.8% à Neuchâtel. Ces différences ne sont
toutefois pas significatives, mais si on regroupe les variétés selon une
"échelle de régionalité", les différences entre les variétés standard (Paris et
Lyon, 36.2%), les variétés peu régionales (Genève et Tournai, 39.5%) et les
variétés très régionales (Neuchâtel et Liège, 40.0%) sont, cette fois-ci,
significatives. Dans cette même étude, les auteurs se sont également
intéressés au nombre de syllabes par GA: le poids métrique moyen est de
3.5 syll/GA à Paris, 3.4 syll/GA à Lyon contre 3.2 syll/GA à Genève et 3.1
syll/GA à Neuchâtel, mais malgré des différences observables dans les
chiffres, elles ne sont pas confirmées statistiquement.

12
Au sujet des transferts, cf. Eckman (1977) et, plus récemment, Bordal (2012).
Pauline DUBOSSON, Sandra SCHWAB & Mathieu AVANZI 35

Ensuite, concernant le respect des règles de bonne formation des groupes


prosodiques minimaux, Bordal et al. (2012) ont comparé le texte PFC lu par
des Parisiens et des Neuchâtelois notamment. Les résultats n'attestent
pas de différences dans le respect de la règle Align-XP (qui prédit que le
bord droit des GA doit s'aligner avec le bord droit des frontières droites de
constituants syntaxiques, cf. page suivante) entre Parisiens et Neuchâ-
telois; par contre, les Neuchâtelois respectent significativement moins la
règle No-clash (évitement de deux syllabes accentuées contiguës) que les
Parisiens.

3.2 Corpus
L’étude de l’accentuation porte sur le même corpus que l’étude de la VA
(cf. § 2.2), à la différence que les analyses n'ont porté que sur la parole lue
et non sur la parole spontanée. Pour le calcul de la densité accentuelle,
nous avons relevé, pour chaque locuteur, le nombre de syllabes
proéminentes et le nombre de syllabes non proéminentes (en excluant les
disfluences) puis nous avons calculé pour chaque variété la densité
accentuelle moyenne, autrement dit le pourcentage de syllabes
proéminentes par rapport au nombre total de syllabes produites. Quant au
calcul du poids métrique, il a été obtenu en comptant le nombre de syllabes
dans chaque GA produit par chacun des locuteurs. Nous avons enfin
calculé une moyenne pour chaque variété.
Nous nous sommes ensuite intéressés à deux règles phonologiques
associées à la bonne formation des groupes prosodiques minimaux. En
français, l'accent n'est pas contraint lexicalement, ce qui signifie que de
nombreux mots lexicaux ne sont pas porteurs d'accent. De tels
phénomènes de non-accentuation ne sont pas dus au hasard. Dans la
littérature (cf. Avanzi ici-même, note 13), deux règles sont considérées
comme particulièrement puissantes pour rendre compte de ces
phénomènes13. La règle Align-XP stipule que dans les syntagmes nominaux
de la forme [dét + adj + N], l'adjectif ne génère pas d'accent primaire
(malgré son statut de morphème lexical) parce qu'il est dominé par le
même nœud que le nom qu'il complète dans la représentation syntaxique.
On prévoit ainsi les découpages ce grand honneur]GA plutôt que *ce grand]GA
honneur]GA. Dans d'autres cas, la non-accentuation d'un élément lexical
peut être motivée par l'existence d'une collision accentuelle potentielle
(No-clash). Ainsi, dans les séquences une journée chaude ou il ne sait pas,
on attend deux accents primaires, un sur la dernière syllabe des mots
lexicaux et un autre sur la dernière syllabe du groupe clitique. Pour éviter la
succession de deux syllabes accentuées contiguës, le premier accent

13
Cf. Avanzi (ici-même).
36 La prosodie du "français fédéral"

primaire n'est pas réalisé. On a ainsi il ne sait pas]GA et une journée


chaude]GA contre *il ne sait]GA pas]GA ou *une journée]GA chaude]GA.
Nous avons répertorié, dans le texte PFC, 8 sites susceptibles de voir la
règle Align-XP s'appliquer et 10 sites susceptibles d'abriter des collisions
accentuelles. Ensuite, sur la base du codage des proéminences, un expert
(l'un des auteurs) a noté, pour chaque site et chaque locuteur, si ces règles
étaient respectées ou non.

3.3 Résultats

3.3.1 Densité accentuelle et poids métrique

Les tests statistiques montrent un effet de la variété sur la densité


accentuelle (χ2 (3, n = 9768) = 74.928, p < .001). Les quatre variétés
présentent un nombre différent de proéminences: les Parisiens (35.5%) et
les Neuchâtelois (38.0%) produisent significativement moins de syllabes
proéminentes que les Zurichois (45.3%) et les Bernois (45.1%) 14 , ce
qu'illustre la figure 6.

Fig.6: Pourcentage de syllabes proéminentes en fonction de la variété.

En d'autres termes, les locuteurs du FF réalisent plus de proéminences, ce


qui peut être interprété comme un transfert du suisse allemand, qui,
rappelons-le, présente un système à accentuation lexicale.
En outre, les analyses statistiques indiquent un effet de la variété sur le
poids métrique (Wald χ2 (3) = 19.967, p < .001). Des analyses post-hoc
montrent que PA, NE et ZH produisent des GA de taille similaire (soit 3.5
syll/GA, 3.3 syll/GA et 3.2 syll/GA respectivement), alors que BE (3.0
syll/GA) produit des GA significativement plus petits, résultat illustré dans
la figure 7. Par ailleurs, groupés ensemble, les locuteurs du FF produisent

14
A noter que ni la différence entre PA et NE ni celle entre ZH et BE n’est significative.
Pauline DUBOSSON, Sandra SCHWAB & Mathieu AVANZI 37

des GA significativement plus petits que les natifs (Wald χ2 (1) = 8.638,
p < .05).

Fig. 7: Poids métrique moyen en fonction de la variété. Les barres d’erreur correspondent à l’erreur
standard de la moyenne.

3.3.2 Align-XP et No-clash

Nous avons ensuite considéré les règles Align-XP et No-clash. Les tests
statistiques montrent un effet de la variété sur le respect de la règle Align-
XP (χ2 (3, n = 160) = 29.396, p < .001): les Parisiens et les Neuchâtelois
(groupés ensemble) respectent davantage Align-XP (dans 45% et 40% des
cas respectivement, différence non significative) que les Zurichois et les
Bernois (groupés ensemble) (10% et 2.5% respectivement, différence non
significative) (χ2 (1, n = 170) = 23.814, p < .001), ce qu'illustre la figure 8.

Fig. 8: Respect de la règle Align-XP (exprimé en %) en fonction de la variété.

Les résultats concernant le respect de No-clash sont similaires à ceux de la


règle Align-XP. Un effet de la variété sur le respect de cette règle est
attesté (χ2 (3, n = 176) = 46.217, p < .001): les Parisiens et les Neuchâtelois
respectent cette règle significativement plus (dans 79.5% et 77.3% des cas
38 La prosodie du "français fédéral"

respectivement, différence non significative) que les Zurichois et les


Bernois (27.3% chacun), comme on l'observe sur la figure 9.

Fig. 9: Respect de la règle No-clash (exprimé en %) en fonction de la variété.

3.4 Discussion
Les résultats obtenus montrent que les locuteurs du FF se comportent
différemment des locuteurs natifs du français en regard de l'accentuation.
Le nombre de proéminences accentuelles chez les non-natifs est plus élevé
que chez les natifs, ce qui peut être interprété comme une influence de la
L1 des locuteurs du FF: Barquero (2012) montre également que les
apprenants espagnols rencontrent en français des difficultés à produire
des mots lexicaux sans accent. En ce qui concerne le poids métrique des
GA, nous avons constaté des différences entre le FF et les variétés natives,
mais aussi entre les deux variétés de FF: les locuteurs BE produisent des
GA plus petits que les locuteurs ZH, résultat pour lequel nous n’avons pas
d’explication à ce jour et qui mérite d’être approfondi dans une étude
ultérieure. Enfin, concernant Align-XP et No-clash, notre étude montre que
les non-natifs ne respectent pas ces deux règles dans la même proportion
que les natifs, ce qui atteste que les locuteurs du FF n'ont pas acquis les
subtilités de l'accentuation du français.

4. Conclusion

Le but de cette étude était de conduire une analyse de deux aspects


prosodiques du "français fédéral": la vitesse d'articulation et
l'accentuation. Pour ce faire, nous avons comparé les productions de
locuteurs de deux variétés de FF (des Bernois et des Zurichois, établis en
région neuchâteloise depuis 20 ans au moins) et les productions de deux
groupes de locuteurs natifs du français (des Parisiens et des Neuchâtelois).
Chaque variété était représentée par 4 locuteurs, 2 hommes et 2 femmes,
tous âgés de 55 ans au moins.
Pauline DUBOSSON, Sandra SCHWAB & Mathieu AVANZI 39

Nous nous sommes intéressés en premier lieu à la vitesse d'articulation.


Nos résultats montrent que les locuteurs du FF se comportent de façon
similaire aux Neuchâtelois, que ce soit à l'égard de l'influence de la variété
sur la durée syllabique, celle du sexe, du style de parole ou de la taille du
GA. Les Parisiens se distinguent avec une durée syllabique plus courte que
les locuteurs des trois variétés suisses (i.e. une VA plus élevée), un effet du
sexe plus marqué (il n'est pas significatif dans les variétés suisses) et une
influence de la taille des GA moins marquée; seul le style de parole a le
même effet sur la durée syllabique dans les quatre variétés.
Contrairement aux résultats de la VA, ceux de l'accentuation ont mis en
lumière des différences entre les locuteurs du FF et les natifs du français.
En effet, les Bernois et les Zurichois produisent plus de syllabes
proéminentes, forment des GA plus petits et ne respectent pas les règles
de bonne formation des groupes prosodiques minimaux (Align-XP et No-
clash) dans la même proportion que les natifs. Ces résultats montrent que
les locuteurs du FF ne maîtrisent pas tout à fait les subtilités du système
accentuel du français, même après de nombreuses années passées en
région francophone. On sait par ailleurs que le débit influence la densité
accentuelle (Fougeron & Jun, 1998; Post, 2011). Toutefois, au vu de nos
résultats, on peut dire que la vitesse d’articulation n’est pas le facteur qui
permettrait d’expliquer que les locuteurs du FF accentuent davantage de
syllabes: en effet, les Neuchâtelois présentent la même durée syllabique
que les non-natifs, mais ils accentuent moins de syllabes que ces derniers.
Dès lors, on peut faire l’hypothèse que la forte densité accentuelle chez les
locuteurs du FF est due à un transfert de la L1.
Par ailleurs, nous avons observé que les Bernois et les Zurichois se
comportent toujours de la même manière (à l'exception du poids métrique
des GA), ce qui pourrait laisser penser que les indices permettant à des
auditeurs de reconnaître l’origine des locuteurs pratiquant des variétés de
FF différentes (cf. Kolly, 2010) se situent plutôt au niveau segmental qu'au
niveau suprasegmental.
D'autres études sont nécessaires pour confirmer ces résultats, notamment
avec la prise en compte de locuteurs plus jeunes, mais aussi avec l'analyse
de l'accentuation en parole spontanée. Concernant l'accentuation, une
étude de la place de la syllabe proéminente dans le mot (initiale,
pénultième, finale) est également envisagée, dans la mesure où le français
est caractérisé par une accentuation finale, alors que le suisse allemand
présente davantage une accentuation initiale (Dubosson, 2012); en outre,
les paramètres acoustiques entrant dans la réalisation des proéminences
(durée, montée de F0, intensité) pourraient aussi être analysés. Enfin,
d'autres variables temporelles pourraient être prises en compte, comme le
débit et les pauses, afin de peut-être mettre en évidence des différences
entre les locuteurs du FF et les natifs du français établis en Suisse.
40 La prosodie du "français fédéral"

Bibliographie

Andreassen, H. N. & Lyche, C. (2008): L'accent vaudois – mythe et réalité. Communication au


colloque PFC.
Andreassen, H., N., Racine, I. & Maître R. (2010): La Suisse. In Detey, S., Durand, J., Laks, B. &
Lyche, C (éds), Les variétés du français parlé dans l'espace francophone. Paris (Editions
Ophrys), 199-212.
Avanzi, M. (2013): Note de recherche sur l’accentuation et le phrasé prosodique à la lumière des
corpus de français. TRANEL 59, 25-42.
Avanzi, M., Goldman, J.-P., Lacheret-Dujour, A., Simon, A. C. & Auchlin, A. (2007): Méthodologie et
algorithmes pour la détection automatique des syllabes proéminentes dans les corpus de
français parlé. Cahiers of French Language Studies, 13/2, 2-30.
Avanzi, M., Obin, N., Bardiaux, A. & Bordal, G. (2012): Speech Prosody of French Regional Varieties.
Proceedings of Speech Prosody, 603-606.
Barquero, M. A. (2012): A comparative study on accentual structure between Spanish learners of
French interlanguage and French native speakers. Proceedings of Speech prosody, 250-253.
Bartkova, K. (1991): Speaking rate in French application to speech synthesis. Actes du XIIème
Congrès International des Sciences Phonétiques, 482- 485.
Binnenpoorte, D., Van Bael, C., den Os, E. & Boves, L. (2005): Gender in everyday speech and
language: A corpus-based study. Proceedings of Interspeech, 2213-2216.
Boersma, P. & Weenink, D. (2012): Praat: doing phonetics by computer (Version 5.5).
www.praat.org.
Bordal, G. (2012): Prosodie et contact de langues: le cas du système tonal du français
centrafricain. Thèse (Université d'Oslo).
Bordal, G., Avanzi, M., Obin, N. & Bardiaux, A. (2012): Realization of Accentual Phrase in French
Language Contact. Proceedings of Speech Prosody, 442-445.
Boula de Mareüil, P., Rouas, J.-L., Yapomo, M. (2011): In search of cues discriminating West-
African accents in French. 12th Annual Conference of the International Speech
Communication Association, Florence, 725-728.
Bullock, B. (2008): Prosody in Contact French: A case study from a heritage variety in the USA. The
International Journal of Bilingualism, 13(2), 165-194.
Christen, H. (2005): ‘Tour de Suisse' der Deutschschweizer Dialekte. In Forum Helveticum (éd.),
Dialekt in der (Deutsch)Schweiz – Zwischen lokaler Identität und nationaler Kohäsion. Le
dialecte en Suisse (alémanique) – entre identité locale et cohésion nationale. Forum
Helveticum, Schriftenreihe 15, 21-25.
Dubosson, P. (2012): Le français fédéral sous l'angle de la prosodie. Une étude de l'accentuation
et de la vitesse d'articulation en français L1 et L2. Mémoire de master (Université de
Neuchâtel).
Durand, J., Laks, B. & Lyche, C. (2002): La phonologie du français contemporain: usages, variétés
et structure. In Pusch C. & Raible, W. (éds), Romanistische Korpuslinguistik- Korpora und
gesprochene Sprache/Romance Corpus Linguistics - Corpora and Spoken Language.
Tübingen (Gunter Narr Verlag), 93-106.
— (2009): Le projet PFC: une source de données primaires structurées. In Durand, J., Laks, B. &
Lyche, C. (éds), Phonologie, variation et accents du français. Paris (Hermès), 19-61.
Pauline DUBOSSON, Sandra SCHWAB & Mathieu AVANZI 41

Eckman, F. (1977): Markedness and the Contrastive Analysis Hypothesis. In Ioup, G. & Weinberger,
S.H. (éds), Interlanguage Phonology: The Acquisition of a Second Language Sound system.
Cambridge (Newbury House), 55-69.
Fougeron, C. & Jun, S. A. (1998): Rate Effects on French Intonation: Prosodic Organization and
Phonetic Realization. Journal of Phonetics, 26, 45-69.
Garde, P. (1968): L'accent. Paris (Presses universitaires de France).
Goldman, J.-P. (2011): EasyAlign: an Automatic Phonetic Alignment Tool under Praat. Proceedings
of Interspeech, 3233-3236.
Goldman, J.-P., & Simon, A. C. (2007): La variation prosodique régionale (Liège, Vaud, Tournai,
Lyon). Description outillée. Communication au colloque PFC.
Grosjean, F, & Deschamps, A. (1975): Analyse contrastive des variables temporelles de l'anglais et
du français: vitesse de parole et variables composantes, phénomènes d'hésitation.
Phonetica, 31, 144-184.
Grosjean, F., Carrard, S., Godio, C., Grosjean, L. & Dommergues, J. Y. (2003): Long and short vowels
in Swiss French: their production and perception. French Language Studies, 17, 1-19.
Haas, W. (2000). Die deutschsprachige Schweiz. In Bickel, H. & Schläper, R. (éds), Die
viersprachige Schweiz. Aarau / Frankfurt a. M. / Salzburg (Sauerländer), Sprachlandschaft
25, 57-138 (première édition en 1982).
Hyman, L. M. (2006): Word-prosodic typology. Phonology, 23, 225-257.
Jacewicza, E. & Fox, R. A. (2010): Between-speaker and within-speaker variation in speech tempo
of American English. Journal of the Acoustical Society of America 128, 2, 839-850.
Knecht, P. & Rubattel, C. (1984): A propos de la dimension sociolinguistique du français en Suisse
romande. Le Français moderne, 52, 138-150.
Knecht, P. (1979): Le français en Suisse romande: aspects linguistiques et sociolinguistiques. In
Valdman, A. (éd.), Le français hors de France. Paris (Honoré Champion), 249-258.
Kolly, M.-J. (2010): Regionale Spuren in Français fédéral und Schweizerhochdeutsch. Eine
Untersuchung im Schnittfeld von Akzent und Einstellung bei Schweizer Dialektsprechern.
Masterarbeit (Universität Bern).
Leemann, A., & Siebenhaar, B. (2008): Perception of dialectal prosody. Proceedings of
Interspeech, 524-527.
Lucci, V. (1983): Phonétique du français contemporain à travers la variation situationnelle (débit,
rythme, accent, intonation, ə muet, liaisons, phonèmes). Grenoble (Publications de
l'université de langues et des lettres de Grenoble).
Lüdi, G. & Werlen, W. (2005): Sprachenlandschaft in der Schweiz – Eidgenössische Volkszählung
2000. Neuchâtel (Office fédéral de la statistique).
Mahmoudian, M. & Jolivet, R. (1984): L'accent vaudois. In Encyclopédie illustrée du Pays de Vaud,
vol. 11, Lausanne (Editions 24Heures), 306.
Manno, G. (2007): La situation du français en Suisse: considérations démolinguistiques et de
politique linguistique. Publifarum: Constellations francophones, 7. Disponible:
http://publifarum.farum.it/ezine_articles.php?art_id=45. (01.10.12)
Matthey, M. (2003): Le français langue de contact en Suisse romande. Glottopol, Revue de
sociolinguistique en ligne, 2, 92-100. Disponible: http://www.univ-
rouen.fr/dyalang/glottopol/telecharger/numero_2/09matthey.pdf. (25.01.12)
Métral, J.-P. (1977): Le vocalisme du français en Suisse romande. Considérations phonologiques.
Cahiers Ferdinand de Saussure, 31, 145-176.
Miller, J. L., Grosjean, F. & Lomato, C. (1984): Articulation rate and its variability in spontaneous
speech: A reanalysis and some implications. Phonetica, 41, 215-225.
42 La prosodie du "français fédéral"

Miller, J. S. (2007): Swiss French prosody. Intonation, rate and speaking style in the Vaud Canton.
Thèse de doctorat, University of Illinois at Urbana-Champaign.
Quené, H. (2005): Modeling of variation between and within speakers spontaneous speech tempo.
9th European Conference on Speech Communication and Technology, Lisbonne, 2457-2460.
Pasdeloup, V. (1992): Durée syllabique dans le groupe accentuel en français. Actes des XIXè
Journées d'Etudes de la Parole, 531-536.
Post, B. (2011): The multi-facetted relation between phrasing and intonation contours in French.
In Gabriel, C. & Lleó, C. (éds), Intonational Phrasing in Romance and Germanic: Cross-
linguistic and bilingual studies. New York (John Benjamins), 43-74.
Rossi, M. (1979): Le français, langue sans accent ? Studia Phonetica, 15, 13-51.
Schläper, R. (1985): Dialecte et langue standard. In Schläper, R. (éd.), La Suisse aux quatre
langues. Genève (Editions Zoé), 11-19.
Schwab, S. (2007): Les variables temporelles dans la production et la perception de la parole.
Thèse de doctorat, Université de Genève.
Schwab, S. & Racine, I. (2012). Le débit lent des Suisses romands: mythe ou réalité ? Journal of
French Language Studies, 22(2), 1-15.
Schwab, S., Dubosson, P. & Avanzi, M. (2012a): Etude de l'influence de la variété dialectale sur la
vitesse d'articulation en français. Actes des XIXè Journées d'Etudes de la Parole, 521-528.
Schwab, S., Avanzi, M., Goldman, J.-P., Montchaud, P. & Racine, I. (2012b): An Acoustic Study of
Penultimate Accentuation in three Varieties of French. Proceedings of Speech Prosody, 266-
269.
Sichel-Bazin, R., Buthke, C. & Meisenburg, T. (2012): The prosody of Occitan-French bilinguals. In
Braunmüller K. & Gabriel C. (éds), Multilingual Individuals and Multilingual Societies.
Amsterdam / Philadelphia (John Benjamins), 349–364.
Singy, P. (1996): L'image du français en Suisse romande. Une enquête sociolinguistique en Pays de
Vaud. Paris (L'Harmattan).
Vaissière, J. (1990): Rhythm, accentuation and final lengthening in French. In Sundberg, J., Nord L.
& Carlson, R. (éds), Music, Language, Speech and Brain. Londres (Macmillan Press), 108-
121.
Verhoven, J., De Pauw, G., Kloots, H. (2004): Speech rate in a pluricentric language: a comparison
between Dutch in Belgium and the Netherlands. Language and Speech, 47, 297-308.
Vieru, B., Boula de Mareüil, P., Adda-Decker, M. (2011): Characterisation and identification of non-
natove French accents. Speech communication, 53, 292-310.
Woehrling, C., Boula de Mareüil, P. & Adda-Decker, M. (2008): Aspects prosodiques du français
parlé en Alsace, Belgique et Suisse. Actes des XXVIIè Journées d'Etudes de la Parole, 1586-
1589.
Travaux neuchâtelois de linguistique, 2013, 59, 43-56

New approach towards predicting local f0


movements using Linear Least Squares by SVD

Naoki PETER1 and Adrian LEEMANN2


1
Universität Bern, Institut für Sprachwissenschaft
2
Phonetisches Laboratorium der Universität Zürich

Gegenstand der vorliegenden Arbeit ist die Anwendung von Linear Least Squares by
SVD auf die Analyse der lokalen Akzentkonturen der Grundfrequenz (f0) des
Walliserdeutschen. Ein zentraler Vorteil dieser Methode liegt darin, dass die
Wichtigkeit der verschiedenen Varianten von kategorischen Variablen separat
berechnet wird und zudem auch numerische Variablen verwendet werden können.
Ausgehend von den walliserdeutschen Sprachdaten von Leemann (2012) im Rahmen
des Fujisaki-Modell Ansatzes konnten Parameter errechnet werden, die 80% der
Positionen von lokalen Akzenten in einem Testdatensatz korrekt voraussagen können
(Peter, 2011). Dies ist insofern erstaunlich, als die Intonationsstrukturen des
Walliserdeutschen landläufig als "unverständlich" (Ris, 1992), "exotisch" (Werlen und
Matter, 2004) oder "hochgradig variabel" (Leemann, 2012) gelten.

1. Introduction

The intonation contours of the Valais Swiss German dialect have long been
perceived as being extraordinary compared to other Swiss German dialects.
While in other dialects, lexical stress manifests itself mainly with an
increased f0, more distinct intensity and duration, there appears to be little
correlation1 between lexical stress and f0 in the Valais dialect (Leemann,
2012). This may be one of the reasons why Stalder (1819: 7–8) attributed a
"singing" quality to their speech melody. Nearly a century later, Wipf (1910:
19) notes that pitch accents (f0 peaks) in Valais Swiss German do not
coincide 2 with dynamic accents (more distinct loudness) and that the
distribution of pitch accents is completely free. She points out:
When first listening [to Valais Swiss German speakers], one does not, however, obtain
this pleasant, harmonious impression. Instead, after realizing that they are in fact
speaking German and not Romansh, one is overcome with an almost annoying sensa-
tion, as if the people place accents as strongly as possible on the most irrelevant of
syllables (1910: 19)3.

These observations, which may sound quite implausible at first, essentially


turn out to be verifiable, nevertheless. As noted by Peter (2011: 20), 76% of
the schwa syllables in Leemann’s dataset are in fact linked with local

1
f0 contours are often found on adjacent unstressed syllables.
2
In other words, lexical stress in Valais Swiss German only manifests itself in more distinct
intensity and duration.
3
Translation adopted from Leemann (2012: 81).
44 New approach towards predicting local f0 movements

accent commands (i.e. a local increase in f0, see definition of accent


command in section 1.1). Leemann also examines the Valais dialect and
arrives at the conclusion that the "somewhat erratic and highly
unsystematic" (2012: 282) intonation structures are hardly predictable by
means of the linguistic, paralinguistic and extra-linguistic factors
considered in his study. Especially the amplitude (height) of local f0
accents is difficult to predict (see section 1.2).
In this paper, we present a new algorithmic approach (outlined in Peter,
2011) for finding linguistic explanations for these peculiar f0 contours, and
we adduce a few newer insights.
The remainder of this paper is structured as follows. First we introduce
some required background information with respect to the Fujisaki Model
and the statistical analyses conducted by Leemann (2012) and we discuss
the motivation behind the new approach. Next, we will present the actual
algorithm and its results for Valais Swiss German speech data (see Peter,
2011). Finally, the results are discussed and conclusions for future
research on the topic are drawn.

1.1 Fujisaki Model


The Fujisaki Model is an intonation model developed by Prof. Fujisaki at the
University of Tokyo. It was adopted by Leemann (2012) to model the f0
contours of his speech data.
The Fujisaki model interpolates the global f0 contour of an utterance by
adding three different types of mathematical formulae. Each of the three
formulae models a different physical/physiological aspect of intonation
production:
Fb: This is a constant that represents the baseline of the fundamental
frequency. In the present study, it can be thought of as the lowest
frequency a specific speaker produces in his or her utterance. The
natural logarithm of Fb (ln Fb) is plotted in Figure 1 with a dotted
line.
Gp(t): This function models a phrase command (PC). It describes the
changes of f0 in part of an utterance that generally corresponds to
an intonation phrase (IP). The contours of two successive phrase
commands are plotted in Figure 1 with a dashed line.
Each phrase command has a constant parameter T0i4 that denotes
its timing. To model different amplitudes in f0, each instance of
Gp(t) has a magnitude parameter Api 5 . The sum of all phrase

4
The subscript i denotes the index of the phrase command inside the utterance.
5
In Figure 1, the Api parameters are plotted as vertical arrows.
Naoki PETER & Adrian LEEMANN 45

commands describes the global changes of f0 in an utterance. It is


called the phrase component of f0. According to Leemann (2012:
50), the phrase component is "suitable to describe the general
declination tendency in intonation contours since the contour of a
phrase component rises quickly and decreases gradually towards
the asymptotic value Fb".
Ga(t): This function models an accent command (AC).They are added on
top of the phrase commands. Accent commands represent fast,
local changes of f0. According to Leemann (2012: 54), they are
generally responsible for local prominence marking on syllables.
The contours of four accent commands are plotted in Figure 1
with a solid line.
Each accent command has the constant timing parameters T1j 6
(start of AC) and T2j (end of AC). The heights of the accent
commands are expressed by the amplitude parameter Aaj. The
sum of all accent commands describes the local changes of f0 in
an utterance. It is called the accent component of f0.
In the terminology of the Fujisaki model, Gp(t) and Ga(t) are called control
mechanisms. Figure 1 illustrates their influence on the contour of ln F0(t).

Fig. 1: The Fujisaki intonation model including phrase and accent commands (adopted from
Fujisaki (1984: 235), modified by Peter). AC amplitude corresponds to the height of the rectangles
in the "Accent Command" subplot.

6
The subscript j denotes the index of the accent command inside the utterance.
46 New approach towards predicting local f0 movements

Using the above functions, any recorded utterance can be modeled


mathematically. Figure 2 contains the complete formula underlying the
Fujisaki model (Leemann, 2012: 43).

Fig. 2: The interpolation formula of the Fujisaki model. The constants α, β, and ɣ were set to
2.0/sec, 20.0/sec, and 0.9/sec respectively. For more information on the mathematical
formulation, see Leemann (2012: 143-144).

In practice, the presence and shape of phrase and accent commands are
determined manually by means of an f0-curve-fitting editor developed by
Fujisaki (Fujiparaeditor).

1.2 Statistical analysis on AC amplitude by Leemann (2012)


Leemann’s (2012) analysis of spontaneous speech intonation contours in
four Swiss German dialects aimed at the creation of dialect-specific
multiple linear regression models. These models, generated for the most
relevant of Fujisaki model parameters, allowed for a distillation of the
relative contribution of independent variables (incorporating linguistic
variables such as stress and word class; paralinguistic variables like
phrase type and focus; as well as non-linguistic variables such as sex)
towards explaining f0 variation in each of the model parameters.
To make sure that the results of the statistical analyses allow for an
immediate linguistic interpretation, Leemann (2012) considers only the
explanatory variables stress (i.e. lexical stress), word class, focus 7, phrase
type, strength of break 8, rate 9, emotion, and sex for his statistical analysis
of the AC amplitude behavior. Table 1 gives an overview of all the levels.

7
The variable focus stands for a deliberate emphasis made by the speaker. See Leemann
(2012: 127ff.) for further explanations.
8
The variable strength of break corresponds to the length of the pause between the current
and the previous intonation phrase and is measured in seconds.
9
Based on the number of syllables produced per second, each speaker was attributed one of
the labels slow, normal, and fast. See Leemann (2012: 233) for further details.
Naoki PETER & Adrian LEEMANN 47

Variable Levels

stress stressed, unstressed, schwa10, pause

word class* lexical, grammatical, pause

focus* focused, else

phrase type* continuing, terminating, question, else

strength of numeric value (seconds)


break

rate* fast, normal, slow

emotion* bored, disgust, fear, happy, neutral,


else

sex male, female


Table 1: Explanatory variables in Leemann (2012). Significant predictors for AC amplitude are
marked with an asterisk (*).

After an initial effect screening, the subset of significant explanatory


variables is deduced using multiple linear regressions. As for the AC
amplitude of the Valais dialect, the variables phrase type, rate, focus,
emotion, and word class turn out to be significant. The fact that the
variable stress is not a relevant predictor ties in nicely with the existing
research literature mentioned in section 1, i.e. stress as an independent
variable seems to have little effect on local f0 contours in the Valais dialect.
The adjusted coefficient of determination11 of 9% suggests, however, that
most of the variability in the AC amplitude cannot be explained by these
variables (Leemann, 2012: 282 ff.).
What does it mean if one was to predict the placement and the amplitude of
local accents based on these variables? Will 91% of our predictions be
wrong? With respect to the placement, the amplitude, or even both? Is Wipf
possibly right, after all, in stating that "people place accents as strongly as

10
In Peter (2011), the schwa level was merged with the unstressed level. The existence of a
schwa in the nucleus is captured by a separate variable (nucleusSchwa).
11
The coefficient of determination (R2) is a statistical measure that provides information
about the goodness of fit. It is bounded by 0 and 1 and is a measure for the overall variability
that can be accounted for by the variables in the model.
48 New approach towards predicting local f0 movements

possible on the most irrelevant of syllables" (1910: 19)? Or could scientific


computing methods yield some new insights?

1.3 Motivation behind the new approach


The analysis conducted by Peter (2011) is geared towards answering the
following two questions:
1. Is it possible to predict the local voice fundamental frequency
changes in the Valais dialect by means of scientific computing
techniques?
2. If so, to what extent can we gain linguistic insights from these
results?
The first question is mainly motivated by the fact that scientific
computation is already being applied in a plethora of scientific fields as
diverse as electronics, economics, or meteorology. In each of these fields, it
is used to solve complex problems that typically lack a straightforward
analytic solution. The method chosen by Peter (2011) is called Linear Least
Squares by SVD12 (see subsection 2.1). It is adopted from Gonnet and Scholl
(2009: 33–48) who show how it can be used in molecular biology to predict
the secondary structure of proteins. The central point of interest is how
well this algorithm will perform on the prediction of the local intonation
contours of Valais Swiss German, which seems to be a notoriously thorny
problem.
But even if the above approach should work to make reliable predictions, it
is not guaranteed that one also obtains linguistic insights. Scientific
computation is primarily about solving mathematical models, so finding an
enlightening explanation for the optimal solution in the framework of the
problem domain can still be difficult. This aspect is covered by means of
the second question.

2. Analysis

In this section we will first give a short description of Linear Least Squares
by SVD. Next, we will present its application to Valais Swiss German speech
data (Peter, 2011: 16–21). The last subsection is devoted to Peter’s
validation criteria of the analysis results (2011: 14–16)13.

12
SVD stands for Singular Value Decomposition.
13
In the validation component, we evaluate the fit of the model with respect to factors that are
prerequisite for a natural sounding f0 synthesis.
Naoki PETER & Adrian LEEMANN 49

2.1 Linear Least Squares by SVD


In order to apply Linear Least Squares (henceforth referred to as LLS) by
SVD to a problem, the mathematical model needs to have the shape of a set
of linear equations with numeric variables. A single equation
(corresponding to a single row in our dataset) would basically have the
following form:
acAmplitude = a0 + a1 · wordClass + a2 · emotionNeutral + a3 · emotionBored + …

The left hand side of the equations contains the response variable. In our
case this is the variable for the AC amplitude acAmplitude14. The right hand
side of each equation consists of the sum of the explanatory variables that
are scaled by linear parameters a015, a1, …, an. These parameters are the
unknowns of the model. Intuitively, the larger a parameter, the greater is
the impact of the corresponding variable value onto the response variable
on the left hand side.
In order to integrate categorical variables like emotion in the model, we
convert each of their variants into a separate variable that can only assume
the value 1 (standing for present) or 0 (standing for absent)16. So a token
with the emotion variant neutral is represented by the emotionNeutral
variable set to 1 and all the other emotion variables (like emotionBored,
emotionDisgust, etc.) set to 0.
This approach of variable splitting may look tedious, but it actually brings
about a significant analytical advantage. Since each of the variants is
accompanied by a separate parameter, it is possible to see the individual
effects on the AC amplitude directly. Variables that have a parameter with a
positive sign are AC amplitude boosters whereas variables with negative
parameters are AC amplitude suppressors.
The output of the LLS by SVD algorithm are the optimal parameters a0, a1, …,
an17. Based on these values, the relative importance of each explanatory
variable can be deduced by calculating its contribution to the reduction of
the residual norm, which is a measure for evaluating the fit of the model
with respect to the data (Peter, 2011: 18).

14
The absence of an AC was treated as an AC amplitude of 0.
15
a0 is not attached to a variable. It is for coping with a constant bias between the values on
both sides of the equation.
16
In programming, these sort of variables are typically called Boolean.
17
High efficiency and robustness against linear dependencies are two of the most important
advantages of LLS by SVD in comparison to other methods.
50 New approach towards predicting local f0 movements

2.2 Application to Valais Swiss German


The analysis by Peter (2011) is based on speech data that was collected by
Leemann in a secondary school in the city of Brig, Canton of Valais. It
comprises 578 annotated utterances that were elicited in the course of
narrative interviews with ten different students (Leemann, 2012). Both
sexes are represented equally. The total length of the audio material is
approximately 45 minutes.
Each utterance had been transcribed and annotated on the syllable level in
Praat. This metadata was later transferred to a spreadsheet file. LLS by
SVD was applied to a filtered and transcoded version of this file.
The first model by Peter (2011) basically comprises the same variables as
Leemann (2012) used for his analysis of the AC amplitude. But, as
mentioned above, the variants of the categorical variables emotion and
phraseType were transformed into distinct Boolean 18 variables (like
emotionHappy, emotionBored, etc.)19. In Leemann (2012), nucleusSchwa
(representing the presence of a schwa sound in the syllable nucleus) was
treated as a value of the variable stress (see Table 1). In Peter (2011), it was
handled as a separate Boolean variable. The Boolean variable segment was
added to distinguish between real speech segments and pauses. In
Leemann (2012), this distinction was only made in the variables stress and
wordClass. Furthermore, the variable rate was assigned the numeric values
for the syllables produced per second instead of the categorical variants
fast, normal, slow used by Leemann (2012). Finally, the variable wordClass
was made Boolean as well by assigning level 1 to all lexical segments and 0
to other segments.

Variable Parameter σ Norm Decrease


focus 0.0601437 ± 0.1566642 0.3988164
wordClass 0.0373295 ± 0.1329001 0.2134935
segment 0.0428703 ± 0.2164096 0.1061920
nucleusSchwa 0.0145203 ± 0.1450973 0.0270996
emotionHappy 0.0197854 ± 0.2611131 0.0155369
emotionBored -0.0200338 ± 0.2884133 0.0130566
rate 0.0007263 ± 0.0159460 0.0056139
emotionNeutral 0.0069269 ± 0.1674181 0.0046324

18
A Boolean variable has only two levels. Generally, level 1 stands for yes (or present) while
level 0 means no (or absent).
19
The variant fear is dropped due to the small token quantity (21).
Naoki PETER & Adrian LEEMANN 51

phraseTypeC 0.0156124 ± 0.4118854 0.0038879


phraseTypeT -0.0067298 ± 0.2188561 0.0025587
stress 0.0035736 ± 0.1361841 0.0018633
emotionDisgust 0.0062790 ± 0.3346671 0.0009526
20
CONST -0.0004809
Table 2: LLS parameter, standard deviations, and norm decrease of the variables in the initial
model. Adopted from Peter (2011: 19).

As can be seen in Table 2, the variable focus turned out to be by far most
influential when it comes to raising AC amplitudes. This is intuitively
plausible since local f0 changes are primarily responsible for prominence
marking (Leemann, 2012: 65). A look into the complete dataset confirms
this finding: As a matter of fact, 86% of the focused speech segments also
have an AC.
The second most important variable is wordClass. Although it is considered
significant in Leemann’s analysis as well, it is held responsible for a relative
contribution of only 3% (2012: 255) Again, a preliminary analysis of the data
shows that 82% of the lexical segments have an AC while 18% do not. As for
the non-lexical segments, however, only 67% are part of an AC while 33%
are not accented21. There is also a noteworthy difference with respect to
the average AC amplitude: For lexical segments it is 0.208 ln Hz whereas for
grammatical segments it is 0.190 ln Hz.
Not surprisingly, the third most important variable is segment. As
mentioned, this variable was included to distinguish between real speech
segments and pauses. Its positive parameter value proves that real
segments have a much bigger chance of carrying ACs than pauses, which is
not much of an astonishing insight. All in all, the above three variables have
the greatest positive influence on the AC amplitude.
A bit bewildering, however, is the relatively high ranking of nucleusSchwa
since, intuitively, we associate schwa with unstressed syllables. But, as
mentioned above, the analysis of Leemann’s data proves that an
astonishing share of 76% of schwa syllables in fact are spanned by an AC.
The two emotion variables emotionHappy and emotionBored also have an
influence on AC amplitudes, the former in a positive (i.e. amplitude
increasing manner), the latter in a negative (i.e. amplitude decreasing, see
negative sign of parameter) way. Again, this sounds logical since the f0 of a

20
CONST is a variable whose only purpose is to even out a constant bias in the equations. Its
parameter corresponds to a0 in section 2.1.
21
As a matter of fact, a share of AC-carrying non-lexical segments of 67% looks unusually high.
We see it as a manifestation of the free pitch accent in Valais Swiss German (Wipf, 1910: 19)
which gives it a singing quality (Stalder, 1819: 7-8).
52 New approach towards predicting local f0 movements

happy (or excited) person generally sounds more variable while the f0 of a
bored person tends to be monotonous.
The contribution of the remaining factors to the norm decrease is less than
2% of the largest norm decrease (by the factor focus), so they have virtually
no influence on local accents. As already noted by scholars like Wipf (1910)
and Leemann (2012), this also includes lexical stress.

2.3 Validation
About 50% of Leemann’s speech data had been spared for the validation of
the obtained parameters22. The validation process applies the parameters
obtained in the previous step to the explanatory variables of the validation
dataset and compares the result, i.e. the predicted AC amplitude
(acAmplitude′), with the actually measured AC amplitude (acAmplitude).
The deviation is measured in terms of the absolute difference.
acAmplitude’  a0 + a1 · wordClass + a2 · emotionNeutral + a3 · emotionBored + …
deviation  |acAmplitude − acAmplitude′|

In Peter (2011), the quality of the predictions were validated with respect to
the following three criteria:
1. AC placement: The model should be able to distinguish between
speech segments that carry an AC and speech segments that do not.
2. Average AC amplitude deviation: The model should be able to predict
the amplitude of the ACs as accurately as possible.
3. AC boundaries: The model should be able to predict the boundaries
between successive ACs correctly.
The first criterion AC placement can be validated quite easily since the
prediction for a given speech segment can only be either true or false23. But
since we are dealing with a simplified model of reality, the predicted AC
amplitudes of syllables that do not carry an AC will never be exactly 0 (as in
the dataset) but some small value around 0. So we need a mechanism to
tell "real" amplitudes (belonging to speech segments that do carry an AC)
from "false" amplitudes (belonging to speech segments that do not carry an
AC). This is achieved by setting a border value d0 that yields the best
separation with respect to the training data. Every amplitude that is larger
than d0 is considered real whereas speech segments with AC amplitudes
smaller than d0 are considered to be lacking an AC. In the model presented
above, the optimal d0 value turned out to be 0.0464 ln Hz.
22
In Peter (2011), the utterances of each speaker were divided equally between the training
and the validation set.
23
Wrong predictions can either be false positives, i.e. predicting an AC where there is actually
none, or false negatives, i.e. predicting no AC where there actually is one.
Naoki PETER & Adrian LEEMANN 53

The output of the validation is the percentage of speech segments that


were classified correctly. A hit rate of 50% would be equal to random
guessing24, so, in any case, an acceptable model has to provide a rate that
is significantly higher.
The second criterion "average AC amplitude deviation" is a continuous
value. It should be clearly smaller than the average AC amplitude, and,
ideally, less than the smallest AC amplitude.
The third criterion "AC boundaries" is motivated by the following two
observations:
1. ACs more often than not span several speech segments.
2. ACs often occur directly one after another (i.e. without a gap in
between).
In order to predict local f0 behavior accurately, it is crucial to decide which
segments that carry an AC amplitude belong to the same AC. This is not an
easy undertaking because, as with the "false" amplitudes mentioned above,
adjacent speech segments belonging to the same AC will never have exactly
the same AC amplitude in the prediction (unless they are absolutely
identical with respect to the explanatory variables). This means that we
have to find once again a border value b0 that distinguishes between "AC
continuations" and "AC boundaries". In other words, when the AC
amplitude difference between two successive speech segments is less
than b0, they belong to the same AC. When it is greater than b0, we assume
that they belong to different ACs. In this respect, the second criterion has
an important influence on the third: The higher the average AC amplitude
deviation, the more difficult it gets to locate boundaries between adjacent
ACs (see figure 3). In the model presented above, the optimal b0 value
turned out to be 0.1549 ln Hz.

24
Imagine a dependent variable that has two variants, one of which is much rarer than the
other one (say 5% vs. 95%). Then a program that always predicts the frequent variant and
never the rare one would have 95% accuracy. But this is clearly not what we want. In
Leemann’s dataset, 66.4% of the speech segments carry an AC whereas only 33.6% do not.
Since both the presence and the absence of ACs are supposed to be predictable with equal
reliability, the LLS algorithm was weighted to prevent a bias in favor of AC-carrying
segments. See Gonnet and Scholl (2009) for more details.
54 New approach towards predicting local f0 movements

Fig. 3: The connection between average AC amplitude and the difficulty of AC boundary detection.

The validation of the above model produced the following results.


AC placement: 77% (or 4220 out of 5446) of the speech segments were
classified correctly.
Average AC amplitude deviation: 0.1132 ln Hz (smallest/average/largest AC
amplitude: 0.0408 / 0.2033 / 0.8163 ln Hz)
AC boundaries: 590 classification errors (number of AC boundaries: 590)
The fact that the AC placement detection rate is clearly above 50% proves
that the model has indeed captured important characteristics. The average
AC amplitude deviation (0.1132 ln Hz) is about half the size of the average
AC amplitude. This is obviously far too large for detecting boundaries
between adjacent ACs: As the data suggests, probably all AC boundaries
went undetected. In other words, successive ACs are always merged to one
large AC. If we applied this behavior to the audio recording of an utterance,
contours with variable f0 activity would be leveled out, which would result
in flat, monotonous intonation.25
By introducing additional variables (such as sex, duration, nucleus type,
syllable position, etc.) AC placement can be increased to 80% and the
average AC amplitude deviation can be decreased to 0.1075745, yet this
has no significant effect on the detection of AC boundaries, which still fails
to work (Peter, 2011: 21–24).

3. Discussion

We believe that the above inaccuracies can be attributed to two different


causes. The first one concerns the limited amount of annotated speech
data. Peter’s analysis is based on 45 minutes of audio material, half of
which is used as test data. This means that the model is essentially trained

25
Actually, the flat contours are also a consequence of our AC synthesis approach. After
identifying a multi-syllable AC, we took the average of the predicted AC amplitudes of the
syllables. So when we mistook two successive ACs as one AC, the resulting accent is longer
and more levelled out.
Naoki PETER & Adrian LEEMANN 55

on only 22.5 minutes of speech. So additional speech data is very likely to


improve the validation results.
The second reason may be the lack of paralinguistic factors included in the
analyses by Leemann (2012). Zemp (2008), who studied the intonation
contours of calling names in Lucerne Swiss German, identified distinct
intonation patterns for a few paralinguistic types, such as "wheedling",
"warning", and "reproachful". He pointed out the significance of including
paralinguistic information for f0 modeling in dialectal speech data. Before
we could add this kind of paralinguistic factors to our intonation model of
Valais Swiss German, however, we would of course first have to
qualitatively assess the corpus for a refined analysis and identification of
paralinguistic factors. And even if we had perfect descriptions of all
existing paralinguistic patterns, they may take an odd shape when
translated into accent command patterns26. After all, the concept of an
accent command is only useful for locally restricted rise-fall pairs with a
more or less symmetrical shape27. This may usually be the case for local
contours that are caused by lexical stress. But studies on paralinguistic f0
features have shown that even single movements (such as a steep fall)
carry paralinguistic meaning and that sequences of movements (such as
"rise  steep fall  rise" for a "warning wheedling" meaning) can span over
different numbers of syllables (see for example Zemp, 2008). Obviously,
this cannot be captured well in a syllable-based model working with local
accents. So one of the future challenges will be to work out a double-
layered model that is able to accommodate both linguistic and
paralinguistic f0 movements. The submodel for linguistic movements could
be built on syllable-based data segmentation and some concept of "local
accent" whereas the paralinguistic submodel would rather have a metrical
data segmentation and conceptualize in terms of single f0 movements.

4. Conclusions
The goal of Peter (2011) was to find out (1) whether scientific computing
techniques could shed light on the f0 contours in the VS dialect and (2) to
what extent linguistic insights could be gained from the results. Although
the presented model is far from perfect, the good results that could be
achieved with respect to the detection of local accent contours justify
26
Zemp (2008) describes intonation patterns in the framework of autosegmental-metrical
phonology (Pierrehumbert, 1980 and Silverman et al., 1992) and additional annotation tiers
where relative intervals are captured (measured in semitones). This way of analyzing pitch is
in line with the concept of “timbre-based melody” put forth by Minematsu und Nishimura
(2008). According to the latter, human beings are usually unaware of absolute pitch in
sounds. What is actually perceived are the pitch movements over time (“relative pitch”).
27
Basically, the Fujisaki model allows superposition of accent commands to interpolate any
sort of intonation contour. Whether this is an intuitive model of the underlying mechanisms
is a different question.
56 New approach towards predicting local f0 movements

answering (1) with a "YES". In our opinion, the inability of the present model
to separate successive local accents can be attributed to the limited
amount of training data and missing paralinguistic factors (whose
investigation is beyond the scope of the present study). As for (2), the
results clearly confirmed several qualitative observations with respect to f0
peculiarities in the Valais dialect, such as the independence of pitch accent
placement from lexical stress. So the application of Linear Least Squares
by SVD can indeed yield linguistically valuable insights.

Bibliography

Fujisaki, H. (1984): Analysis of voice fundamental frequency contours for declarative sentences of
Japanese. Journal of the Acoustical Society of Japan, 5 (4), 233-42.
Gonnet, G. H. & Scholl, R. (2009): Scientific Computation. Cambridge (Cambridge University Press).
Leemann, A. (2012): Swiss German Intonation Patters. Amsterdam / Philadelphia (Benjamins).
Minematsu, N. & Nishimura, T. (2008): Consideration of infants’ vocal imitation through modeling
speech as timbre-based melody. New Frontiers in Artificial Intelligence, LNAI4914, 26-39.
Peter, N. (2011): The local contours of the voice fundamental frequency in the Swiss German
dialect of Valais. Bachelor’s thesis, University of Bern.
Pierrehumbert, J. 1980. The Phonology and Phonetics of English Intonation. Ph.D. Thesis, MIT.
Ris, R. (1992): Innerethik der deutschen Schweiz. In: Hugger, P. (Hg.). Handbuch der
schweizerischen Volkskultur, Bd. II. Offizin, 749-766.
Silverman, K. E. A. et al. (1992): TOBI: A Standard for Labelling English Prosody: Proceedings of the
1992 International Conference on Spoken Language Processing, 2, 867-870.
Stalder, F. J. (1819): Die Landessprachen der Schweiz oder Schweizerische Dialektologie. Aarau
(Sauerländer).
Werlen, I. & Matter, M. (2004): Z Bäärn bin i gääre: Walliser in Bern. In: Glaser, Elvira et al. (Hg.).
Alemannisch im Sprachvergleich: Beiträge zur 14. Arbeitstagung für alemannische
Dialektologie in Männedorf (Zürich) vom 16. 18.9.2002. Wiesbaden (Franz Steiner), 263-280.
Wipf, E. (1910): Die Mundart von Visperterminen im Wallis. Frauenfeld (Huber).
Zemp, M. (2008): Anredekonturen im Luzerndeutschen: Eine intonationale Teilgrammatik.
Arbeitspapiere, Institut für Sprachwissenschaften, Universität Bern, Bd. 44, 1-61.
Travaux neuchâtelois de linguistique, 2013, 59, 57-70

Prosodic differences between Germans and


German-speaking Swiss in L2

Ingrid HOVE
University of Zurich

Cette recherche étudie dans quelle mesure l'origine géographique d’un locuteur
influence son accent dans une langue étrangère. L’anglais et le français parlés par
des Allemands et des Suisses alémaniques sont examinés à travers une expérience
de perception et d’analyses phonétiques. L’expérience de perception démontre que
les participants sont bien capables d'indiquer si une phrase est lue par un Allemand
ou un Suisse alémanique; les participants de langue maternelle allemande y
réussissent le mieux. L’analyse prosodique permet d'observer de nettes différences
entre les deux groupes de locuteurs. Dans la lecture des phrases françaises, les
Suisses alémaniques ont tendance à accentuer la première syllabe des mots, en
montant avec leur intonation et en prolongeant la durée des voyelles. Les Allemands,
en revanche, accentuent par une intonation fortement montante la dernière syllabe
des mots.

1. Introduction

When we hear a person speaking with a foreign accent it is often quite easy to
divine the speaker’s mother tongue if it is a language we are at least vaguely
familiar with. The question which underlies the study presented in this paper is
the following: Does a person’s accent allow the listener to divine more than just
the speaker’s native language, namely, can he or she be located geographically
within the linguistic area? The aim of this study was to find out whether Germans
and German-speaking Swiss can be told apart due to their accent in English and
French and, if so, to investigate some of the prosodic features which may
contribute to this distinguishability.
Different studies have explored similar questions. In a perception experiment
Kolly (2013) presented the subjects with excerpts in Standard German and in
French spoken by people from St. Gall and Berne. The native speakers of Swiss-
German performed well in assigning the origin of a speaker for the texts in
Standard German; the other results also showed tendencies of recognition.
Boula de Mareüil et al. (2008) examined the identification of regional and foreign
accents in French. They found that the identification of the origin of a speaker
was based mainly upon segmental information. In contrast, prosodic features did
not lead to clear tendencies of identification.
Leemann and Siebenhaar (2008) tested the recognition of dialectal prosody with
four Swiss-German dialects. The results of their perception experiment with
58 Prosodic differences between Germans & German-speaking Swiss in L2

speech material devoid of segmental cues show that regional dialects can be
identified based solely on prosodic cues.
Avanzi et al. (2012) and Barquero Armesto (2012) found prosodic differences
between French spoken by native speakers and French spoken by speakers of
Swiss-German and Spanish respectively.

2. Method and data

The study consists of two parts: on the one hand, there is a perception
experiment and, on the other hand, there is the phonetic analysis of the
recordings.
The data consists of the recordings of five speakers from Germany and five
speakers from German-speaking Switzerland. The German speakers are from the
northern or central part of Germany, namely Hamburg (2), Kassel,
Mönchengaldbach and Cologne. The Swiss speakers are from St. Gall, Zurich,
Zurich-Aargau, Berne and the Valais. Each speaker reads the text The north wind
and the sun in German, English and French. The recordings were made with a
Zoom H2 in a quiet office.
The aim of the perception experiment is to show whether or not Germans and
German-speaking Swiss can be told apart due to their accent in English and
French. In order to test this, ten excerpts were cut out of the French recordings
and ten out of the English recordings. The excerpts are very short, they only last
between 1.5 and 3 seconds. Half of the excerpts are from German speakers, half
from Swiss speakers.
The participants of the perception experiment were told that the speakers were
either Germans or German-speaking Swiss. The questionnaire contains the
orthographic transcription of each excerpt. Each excerpt was played only once.
The participants then had a few seconds to check the box indicating the
presumed origin of the speaker and their degree of certainty. The following figure
shows part of a translated questionnaire; the complete version is attached in the
appendix.
Ingrid HOVE 59

German German, I Swiss, I German-


French (from suspect suspect speaking
Germany) Swiss
1 la bise et le soleil se disputaient
2 chacun assurant qu'il était le plus fort
… [etc.]

German German, I Swiss, I German-


English (from suspect suspect speaking
Germany) Swiss
1 the north wind and the sun
2 when a traveller came along
… [etc.]

Table 1: Part of the translated questionnaire for the participants of the perception experiment

The participants of the perception experiment were also asked to specify features
of which they believe that they distinguish the accents of Germans from Swiss.
Furthermore, they declared their native language(s) and their level of competence
in English and French.
On the whole, 200 subjects participated in the experiment. Most of the
participants were students at the University of Zurich.
In the second part of the study the recordings were analyzed phonetically. These
analyses were carried out with the entire recordings, not only with the excerpts
chosen for the perception experiment.
The participants’ answers to the question as to wherein the Germans and the
German-speaking Swiss differ in their eyes have not yet been fully analyzed. They
shall be presented in a later publication.
The following section will first present the results of the perception experiment,
then the results of the phonetic analyses.

3. Results

3.1 Results of the perception experiment


In this section, the results of the perception experiment are presented and the
factors which have an influence upon the proportion of correct assignments are
discussed.
In general, the 200 participants identified the excerpts quite well. 77% of the
French excerpts and 85% of the English excerpts were assigned correctly to
speakers from Germany or Switzerland respectively. This is significantly above
chance; significance was tested by means of a one-way chi-square test (χ2 =
18’102; df = 2; p < .0001 for French; χ2 = 29’936; df = 2; p < .0001 for English).
60 Prosodic differences between Germans & German-speaking Swiss in L2

Figure 1: Proportions of the French and English excerpts which the participants assigned correctly
or falsely to German or Swiss speakers respectively

The most important factor which has an influence upon the proportion of correct
assignments is the native language of the participants. The 149 participants
whose native language is German perform much better (French 81%; / English
90% correct assignments) than the 41 speakers1 of another language (64% / 66%
correct assignments), though even in the latter group the proportion of correct
answers is significantly above chance (χ2 = 453; df = 2; p < .0001 for French; χ2 =
572; df = 2; p < .0001 for English). A closer look at the participants whose native
language is German shows that those participants who claim that both Swiss
German and the variety of German spoken in Germany are their native languages
perform best. Since this is only the case for 7 speakers, however, this result
should not be overrated, even if it does seem plausible.
Participants whose native language is the language spoken in the excerpts
perform below average. The 5 native speakers of French only assign 72% of the
French excerpts correctly and the 8 native speakers of English only get 65% of the
English excerpts right2.
Furthermore, the connection between competence and performance was tested.
This was done by using cross tables. For both languages the chi-square values
were highly significant (χ2 = 47.6; df = 4; p < .0001 for French; χ2 = 26.6; df = 3; p
< .0001 for English 3 ). This means that there must be significant deviations
between the count and the expected count in one or more categories. For French,
the standard residual for people who say they do not speak French is 5.4 for the
wrong and -3.0 for the correct answers, which means that these participants
1
The total is lower than 200 because 10 participants did not fill out the part about their native
language and their L2-competence.
2
Despite the small size of both groups the numbers are still significant: χ2 = 48.4; df = 2;
p < .0001 for the French speakers judging the French excerpts; χ2 = 45.5; df = 2; p < .0001 for
the English speakers judging the English excerpts.
3
The degree of freedom is lower for English since the two lowest categories of competence
were put together.
Ingrid HOVE 61

more often give a wrong answer and less often a correct answer when judging the
origin of the speaker of a French excerpt. For English, people who judge their
competence level of English as poor or average give more wrong answers than
expected (standard residual 3.1 and 2.5), people who consider their English as
very good (but not excellent or as their mother tongue) give significantly less
wrong answers (standard residual -2.5) (cf. Hove [accepted] for details).
In conclusion, it seems that participants with a low level of competence in French
or English perform below average when judging the excerpts in the respective
language. However, people who consider their competence of French or English
as excellent or for whom it is the mother tongue do not perform above average
when deciding whether an L2-speaker is from Germany or Switzerland. Overall,
the competence level of French and English does not have a very strong influence
upon a subject’s performance in the perception experiment.

3.2 Results of the phonetic analysis on the prosodic level


This section discusses the findings of the phonetic analysis of the
suprasegmental features. Before doing so, however, it must be pointed out that
this is an exploratory study. The features described here are ones that look
promising for further research but they are by far not the only ones to be noted. A
more detailed and systematic analysis would surely offer additional insights.

3.2.1 Duration

In this section the duration of consonants and vowels will be looked at. As to the
consonants, for the German language, in particular for the Swiss German dialects,
a lot of research has been done on geminates. It is well documented that most
Swiss German dialects have geminate consonants (e.g. Hotzenköcherle, 1965:
182-203; Willi, 1996). When speaking the standard variety of German, which has
no geminates, most Swiss tend to pronounce intervocalic consonants after a
short accented vowel with a longer duration than consonants in other positions
(Christen et al., 2010: 183). This can also be observed in the German recordings of
the present corpus: In words such as Sonne ('sun') or stritten ('argued') both the
absolute duration of the intervocalic consonants [n] and [t] as well as their
relative duration in comparison to the preceding vowel is higher for the Swiss
than for the Germans.
In the French version of The northwind and the sun intervocalic [k] and [s] appear
in the phrase chacun assurant [qu’il était le plus fort]. The measurements
revealed that the Swiss do not pronounce these intervocalic consonants with a
longer duration than the Germans. This might be due to the accentuation, a factor
discussed on the following pages.
In the English text there is no word in which an intervocalic fortis consonant
occurs after a short accented vowel.
62 Prosodic differences between Germans & German-speaking Swiss in L2

In the French text the duration of the vowels was examined as well. Using the two
disyllabic words tombés and d’accord as examples, the duration of both vowels in
each word was measured. The following figure shows the relative duration of the
second (last) vowel in relation to the first vowel for each of the two words.

Ils sont tombés d’accord, que…

Germans: 1 : 2.0 1 : 1.9


Swiss: 1 : 0.9 1 : 1.9
Figure 2: The relative duration of the last vowel compared to the first vowel in two disyllabic
French words pronounce by speakers from Germany or Switzerland

In both words, the Germans pronounce the second vowel about twice as long as
the first one. For the Swiss speakers the relative duration between the two vowels
is also about 1 : 2 in the second word, which is at the end of a phrase. However, in
the word tombés they pronounce both vowels with almost the same duration; the
first vowel is even slightly longer than the final one. In the word tombés, which is
in the middle of a phrase, the Swiss accentuate the first syllable, [tɔ̃], while the
Germans accentuate the final syllable, [be].
All speakers emphasize the final syllable of the phrase, d’accord, by pronouncing
it with a longer vowel. This can be due to the fact that the final syllable in French
is accentuated (see below) or it can be due to the more universal phenomenon of
phrase-final lengthening.

3.2.2 Intonation

A similar pattern can be seen when looking at the intonation patterns. The
following figure shows the intonation patterns of a German and a Swiss speaker
for the same phrase, ils sont tombés d’accord. The graph was produced by using
the intonation curves of the computer programs Praat (Boersma/Weenink) and
Prosogram (Mertens). The height of the box represents 100 Hz4.

4
For this phrase (as well as for the one depicted in figure 4) a ToBI label would not bring out
the important difference between the two pronunciations. In both cases the word tombés
would be annotated with the label L+H* ; however, it would not show that the prominent
syllable to which this tone applies is in one case the second, in the other case the first
syllable of the word tombés.
Ingrid HOVE 63

ils sont tom bés d’a ccord…

German speaker:
(Mönchengladbach)

Swiss speaker:
(Berne)

Figure 3: Intonation patterns of a German and a Swiss speaker for a French phrase with two
disyllabic words

Both in the word tombés as well as in d’accord the German speaker from
Mönchengladbach pronounces the first syllable with a low or falling pitch while
rising strongly on the second syllable, thereby accentuating it. In contrast, the
Swiss speaker from Berne produces the first syllables of both words with a rising
pitch, whereas the second syllables are spoken with a steady high pitch.
Even if these are only two speakers and there is a lot of variation, both pitch
patterns seem to be typical for their group.
The examination of trisyllabic words also reveals fundamental differences in the
pitch movements of Germans and Swiss. The phrase looked at is un voyageur qui
s’avançait.

un vo ya geur qui s’a van çait

German speaker:
(Cologne)

Swiss speaker:
(St. Gall)

Figure 4: Intonation patterns of a German and a Swiss speaker for a French phrase with two
trisyllabic words

As in the disyllabic words, the speaker from Germany pronounces the last syllable
of the words voyageur and s’avançait with a strong rise in pitch. The Swiss
64 Prosodic differences between Germans & German-speaking Swiss in L2

speaker from St. Gall has a rising pitch on the first two syllables of each word
while the last syllable is spoken in a lower pitch.
Vieru et al. (2011) found pitch rises on maintained word-final schwas in German5
speakers of French, whereas English Italian and native French speakers show
pitch falls in the same contexts.
The French language does not have an accent on words, it has an accent at the
end of a phrase (Schmid, 2009: 49). Native speakers of German – a language with
a word accent – tend to impose a word accent on their pronunciation of French. It
is highly interesting to note that they do this in different ways: The German
speaking Swiss tend to accentuate French words on the first syllable in the way
many German words are accented. The Germans, on the other hand, accentuate
French words on the last syllable. The accentuation of the end of a phrase in
French is presumably perceived as a wordfinal accentuation and is therefore also
applied to words which are not at the end of a phrase.
These differences in pattern are difficult to explain. They might have something to
do with a fact that has also been observed in German: In foreign words such as
Büro or Apostroph, in names (eg. Neptun, Merkur) and in acronyms (eg. FDP, ARD),
speakers from Switzerland are much more likely to accentuate the first syllabe
than the Germans, who usually accentuate the last syllable (Christen et al., 2010:
247f.; Sieber, 2001: 495f.).
It is interesting to note here that Woehrling et al. (2008) found a tendency toward
initial stress in the French-speaking Swiss Canton de Vaud. This hints at the
possibility that there might be a regional component to stress which interacts
across languages.
Avanzi et al. (2012) compared the pronunciation of French by native speakers and
speakers of Swiss-German. They found differences in accent and phrasing: the
number of prominences was higher for the Swiss-German speakers than for the
native speakers of French. Barquero Armesto’s (2012) findings for Spanish
learners of French are similar.
The speakers realize the accentuation by increasing the duration of the syllable in
question and by pronouncing it with a rising pitch. Remarkably, the accentuated
syllable is not necessarily realized with an increased intensity.
For the English text the examination of the pitch revealed many differences
between the speakers, but no patterns were found which could be considered as
typical either for the Germans or the Swiss.
Some Swiss speakers did show striking rises on accented syllables but they were
neither systematic nor exclusive to their group. At best, when speaking English,
the Swiss speakers might produce syllables with a striking rise in pitch more
5
The origin of the German speakers is not specified. However, since it is said that they
started studying French at 17 it is unlikely that they are from German-speaking Switzerland
where French is taught at the latest from the 7th school year on.
Ingrid HOVE 65

frequently than the Germans but this would need to be looked into more
thoroughly.

3.2.3 Intensity

The third prosodic feature which was examined was intensity. In the French texts
no systematic differences between speakers from Germany and Switzerland were
found. In the English texts there might be a slight tendency for Swiss speakers to
start a decrease of the intensity earlier than the Germans. Schematically, this
feature would look like this:

Intensity pattern in a phrase

German speaker:

Swiss speaker:

Figure 5: Recurring intensity patterns of German and Swiss speakers in English phrases6

These patterns were found in phrases such as wrapped in a warm cloak or in the
title The northwind and the sun. They were also found in the German texts.
However, their occurrence was far from systematic. In addition, even when
listening to two clear cases this difference is not a perceptually salient feature.

3.3 Results of the phonetic analysis on the segmental level


The differences in pronunciation between Germans and Swiss speaking English
and French are presented in detail in Hove (submitted) and are therefore only
summarized here.
When speaking English, native speakers of German often have problems
pronouncing [ð] and [θ] since these sounds do not exist in German. Though in the
majority of the words these sounds are produced correctly, in those cases in
which they are replaced by a familiar sound there is a difference in strategy: while
the Swiss replace these dental fricatives with the plosives [d] and [t], Germans
most often replace them with the alveolar fricatives [z] and [s]. These variants are
never used by Swiss speakers.
Another source of error is the distribution of [v] and [w]. Germans tend to replace
[w] by [v] in words such as wind; in contrast, Swiss often replace [v] with [w] in
words such as traveller. There is also some variation in the pronunciation of the r-

6
This graph is presented here in an abstract and admittedly vague manner because the
absolute values are not comparable. As mentioned, the recordings were made in an office;
the distance between the microphone and the mouth of the speaker was not always the
same.
66 Prosodic differences between Germans & German-speaking Swiss in L2

sounds. Among Germans, uvular realizations can occur and in a few cases Swiss
speakers produced an alveolar [r]. Cases of final devoicing can be found for
Germans whereas a few cases of across-word assimilation appear in texts spoken
by Swiss readers.
In French as well as in English a noticeable difference between the speaker
groups is the fact that the Swiss have trouble with the lenes [b], [d], [g], [ʒ] and
[dʒ] which they often devoice partially or totally.
Both in the English and in the French texts the Germans produce many more
glottal stops than the Swiss and in general the Germans aspirate the plosives
more strongly.

4. Conclusion / Discussion

The results of the perception test show that people with the same native language
but who speak a different variety of this language can be told apart by their
foreign accent. In this study, the two groups are speakers from Germany and from
German-speaking Switzerland who can be told apart based on their accent in
French or in English.
Previous studies have shown that even within German-speaking Switzerland
speakers of different dialects can be differentiated based on their L2-accent
(Kolly, 2013) or based on prosodic features (Leemann & Siebenhaar, 2008). The
findings of the present study indicate that at the same time there must be
similarities between the L2 speech of speakers of different Swiss dialects which
allow listeners to identify them as Swiss and keep them apart from speakers from
Germany.
The phonetic analysis of the recordings of the Germans and the Swiss speaking
French and English reveal some systematic differences on the segmental level.
These cannot on their own account for the high rate of correct attributions since
the excerpts are only about two seconds long and many of them do not contain
sound variants which were found to be typical for one or the other speaker group.
Therefore, there must also be differences on the prosodic level. Many differences
were found between the speakers; however, the high within-speaker variability
and between-speaker variability make it difficult to find systematic prosodic
differences between the two speaker groups. Though certain tendencies such as
the different stress and pitch pattern in French were found, much more research
is necessary to find features indicative of a certain accent. New technologies (cf.
Jilka, 2000; Boula de Mareüil &Vieru-Dimulescu, 2006; Grabe, 1998) might prove
to be helpful in this process.
I would like to give my thanks to the people who participated in this study by reading the texts or
by judging the excerpts. I also thank my colleagues at the Phonetics Laboratory in Zurich Stephan
Schmid, Volker Dellwo, Jürg Strässler, Adrian Leemann, Marie-José Kolly and Dieter Studer for
Ingrid HOVE 67

their help and their suggestions, Adrian Leemann and Sandra Schwab for organizing the workshop
and the publication, and Aurore Bettinville for her help with the statistics.

Bibliography

Avanzi, M. et al. (2012): Accentual Transfer from Swiss-German to French. A Study of 'Français
Fédéral'. In: Proceedings of Interspeech 2012, Portland (USA).
Barquero Armesto, M. (2012): A comparative study on accentual structure between Spanish
learners of French interlanguage and French native speakers. In: Proceedings of Speech
Prosody, Shanghai, 2012, 250-253.
Boersma, P. & Weenink, D.: Praat: doing phonetics by computer. Version 5.2.17, retrieved march
2011 from http://www.praat.org
Boula de Mareuil, P. & Vieru-Dimulescu, B. (2006): The contribution of prosody to the perception of
foreign accent. In: Phonetica, 63, 247-267.
Boula de Mareuil, P. et al. (2008): Accents étrangers et régionaux en français. Caractérisation et
identification. In: Traitement Automatique des Langues, 49(3), 135-162.
Christen, H. et al. (2010): Hochdeutsch in aller Munde. Eine empirische Untersuchung zur
gesprochenen Standardsprache in der Deutschschweiz. Stuttgart (Franz Steiner Verlag).
Fitzpatrick-Cole, J. (1999): The alpine intonation of Bern Swiss German. In: ICPhS99, 941-944.
Grabe, E. (1998): Pitch accent realization in English and German. In: Journal of Phonetics, 26, 129-
143.
Hirschfeld, U., Kelz, H. P. & Müller, U. (Hg.): Phonetik International. Von Afrikaans bis Zulu.
Kontrastive Studien für Deutsch als Fremdsprache. Bonn: Popp (retrieved October 2011
from http://www.phonetik-international.de/p-phonetik).
Hotzenköcherle, R. (Hg.) (1965): Sprachatlas der deutschen Schweiz. Bd. II: Lautgeographie:
Vokalquantität, Konsonantismus. Bearb. v. D. Handschuh, R. Hotzenköcherle & R. Trüb.
Bern u.a. (Francke).
Hove, I. (forthcoming): Mit deutschem Akzent sprechen. Analyse der Unterschiede zwischen
Deutschschweizern und Deutschen, die Französisch und Englisch sprechen. In: D. Huck
(Hg.): Alemannische Dialektologie: Dialekte im Kontakt. Beiträge zur 17. Arbeitstagung für
alemannische Dialektologie in Straßburg (Elsass / Frankreich), 26.-28.10.2011. Stuttgart
(Franz Steiner Verlag), ZDL-Beiheft.
Jilka, M. (2000): The Contribution of Intonation to the Perception of Foreign Accent. Doctoral
Dissertation, Arbeiten des Instituts für Maschinelle Sprachverarbeitung (AIMS) Vol. 6(3),
University of Stuttgart. (retrieved July 2011 from http://ifla.uni-
stuttgart.de/institut/mitarbeiter/jilka/papers/diss.pdf).
Kolly, M.-J. (2013): Akzent auf die Standardsprachen: Regionale Spuren in “Français fédéral” und
“Schweizerhochdeutsch”. In: Linguistik online, 58/1, 37-76.
Leemann, A. & Siebenhaar, B. (2008): Perception of Dialectal Prosody. In: Proceedings of
Interspeech 2008, Brisbane, Australia, 22.-26.9.2008, 524-527.
Leemann, A. (2007): Acoustic analysis of Swiss English vowel quality. Bern (retrieved January 2012
from
http://www.isw.unibe.ch/unibe/philhist/isw/content/e4267/e4385/e5406/e5427/e5988/Lee
mann-MAThesis(2006)_ger.pdf)
Magen, H.S. (1998): The perception of foreign-accented speech. In: Journal of Phonetics, 26, 381-
400.
68 Prosodic differences between Germans & German-speaking Swiss in L2

Mertens, P.: Prosogram 2.9. Transcription of prosody using pitch contour stylization based on a
tonal perception model and automatic segmentation, retrieved june 2012 from
http://bach.arts.kuleuven.be/pmertens/prosogram/
Schmid, S. (2009): Einführung in die allgemeine Phonetik und Phonologie für Studierende der
Romanistik. Zürich: Phonetisches Laboratorium.
Sieber, P. (2001): Das Deutsche in der Schweiz. In: G. Helbig et al. (Hg.), Deutsch als Fremdsprache.
Ein internationales Handbuch. Berlin & New York (de Gruyter), 491-504.
Stock, E. (2000): Zur Intonation des Schweizerhochdeutschen. In: M. Habermas, P. Müller & B.
Naumann (Hg.), Wortschatz und Orthographie in Geschichte und Gegenwart. Tübingen
(Niemeyer), 299-314.
Ulbrich, Ch. (2005): Phonetische Untersuchungen zur Prosodie der Standardvarietäten des
Deutschen in der Bundesrepublik Deutschland, in der Schweiz und in Österreich. Frankfurt
am Main (Lang).
Vieru, B., Boula de Mareüil, P. & Adda-Decker, M. (2011): Characterisation and identification of
non-native French accents. In: Speech Communication, 53, 292-310.
Willi, U. (1996): Die segmentale Dauer als phonetischer Parameter von ‚fortis’ und ‚lenis’ bei
Plosiven im Zürichdeutschen: eine akustische und perzeptorische Untersuchung. Stuttgart
(Franz Steiner).
Woehrling, C. et al. (2008): A corpus-based prosodic study of Alsatian, Belgian and Swiss French.
In: 9th Annual Meeting of the International Speech Communication Association, Brisbane,
780-783.
Ingrid HOVE 69

Appendix

Nordwind und Sonne


Einst stritten sich Nordwind und Sonne, wer von ihnen beiden wohl der Stärkere wäre, als ein
Wanderer, der in einen warmen Mantel gehüllt war, des Weges daherkam. Sie wurden einig, dass
derjenige für den Stärkeren gelten sollte, der den Wanderer zwingen würde, seinen Mantel
abzunehmen. Der Nordwind blies mit aller Macht, aber je mehr er blies, desto fester hüllte sich
der Wanderer in seinen Mantel ein. Endlich gab der Nordwind den Kampf auf. Nun erwärmte die
Sonne die Luft mit ihren freundlichen Strahlen, und schon nach wenigen Augenblicken zog der
Wanderer seinen Mantel aus. Da musste der Nordwind zugeben, dass die Sonne von ihnen beiden
der Stärkere wäre.

La bise et le soleil
La bise et le soleil se disputaient, chacun assurant qu'il était le plus fort. Quand ils ont vu un
voyageur qui s'avançait, enveloppé dans son manteau, ils sont tombés d'accord, que celui qui
arriverait le premier à le lui faire ôter serait regardé comme le plus fort. Alors, la bise s'est mise à
souffler de toute ses forces, mais plus elle soufflait, plus le voyageur serrait son manteau autour
de lui. Finalement, elle renonça à le lui faire ôter. Alors, le soleil commença à briller et au bout
d'un moment le voyageur, réchauffé, ôta son manteau. Ainsi, la bise a du reconnaître que le soleil
était le plus fort.

The north wind and the sun


The north wind and the sun were disputing which was the stronger, when a traveller came along
wrapped in a warm cloak. They agreed that the one who first succeeded in making the traveller
take his cloak off should be considered stronger than the other. Then the north wind blew as hard
as he could, but the more he blew the more closely did the traveller fold his cloak around him; and
at last the north wind gave up the attempt. Then the sun shone out warmly, and immediately the
traveller took off his cloak. And so the north wind was obliged to confess that the sun was the
stronger of the two.
70 Prosodic differences between Germans & German-speaking Swiss in L2
Travaux neuchâtelois de linguistique, 2013, 59, 71-86

Apprenants hispanophones de FLE et


accentuation en français

Sandra Schwab
Ecole de langue et de civilisation françaises, Université de Genève

The aim of this research is to examine whether Spanish speakers transfer some
accentual acoustic properties from Spanish to French L2. Native Spanish learners of
French and native speakers of French were instructed to read French sentences that
contained a trisyllabic pseudoword ending with an open syllable (e.g. poutila) or
closed syllable (e.g. poutilar). In half of the sentences, the pseudoword was a noun in
a stressed position, while in the other half it was an adjective in an unstressed
position. Acoustic analyses (duration, F0 and amplitude) were performed on the three
vowels of the pseudoword, as well as on the first vowel following the pseudoword.
Results showed that Spanish speakers have acquired the knowledge that, contrary to
Spanish, stress is fixed in French (on the last syllable), but not that stress is realized
at the accentual phrase level rather than at the word level as in Spanish.

1. Introduction

Le français et l'espagnol se distinguent par les trois caractéristiques qui


définissent l'accent (stress en anglais): sa position, sa fonction et ses
corrélats acoustiques. En ce qui concerne la position de l'accent primaire,
le français se caractérise par un accent fixe de nature oxytone1, qui se
trouve généralement sur la dernière syllabe du mot ou du groupe de mots,
se déplaçant à la fin de ce dernier à mesure qu'il s'allonge2. Le français ne
présente donc pas un accent de mot, mais un accent de groupe. Ainsi,
comme le mentionne Carton (1997: 103), "si beaucoup de francophones ont
l'impression que leur langue est sans accent tonique, c'est parce que
l'unité accentuelle est élastique". Quant à sa fonction linguistique, l'accent
français possède une fonction démarcative (Léon, 2007): il organise le
continuum sonore et segmente la chaîne parlée en unités prosodiques, ce
qui facilite le décodage des unités de sens et permet de lever certaines
ambiguïtés. Mentionnons encore ici le syncrétisme caractéristique du
français entre accentuation et intonation (Rossi, 1979): la dernière syllabe
d'un groupe accentuel constitue le lieu de la réalisation tant de l'accent

1
Notons que le français possède également un accent secondaire qui peut être de nature
rythmique ou emphatique et dont la position dans le mot est variable (Rossi, 1981). L'accent
emphatique ou d'insistance, dont l'apparition dépendrait de facteurs pragmatiques, a aussi
été décrit pour l'espagnol (Quilis, 1993).
2
Relevons toutefois que si le patron oxyton se réalise surtout en lecture ou dans un discours
neutre, il ne se produit pas toujours de cette manière dans un discours spontané (Léon,
2007).
72 Apprenants hispanophones de FLE et accentuation en français

primaire que des contours intonatifs, ce qui mène à une certaine fusion
entre accentuation et intonation (Lacheret & Beaugendre, 1999).
En espagnol, l’accent dit "libre" peut apparaître sur une des trois dernières
syllabes du mot (Alcoba & Murillo, 1998), ce qui donne lieu à trois patrons
accentuels: oxyton, paroxyton et proparoxyton3. Ainsi, on observe géné-
ralement, pour les mots en isolé, une correspondance univoque entre mot
et accent: un mot ne contient qu'un accent lexical. L'accent espagnol ne
présente pas une fonction démarcative4 (Quilis, 1993), mais une fonction
distinctive, puisqu’il permet de distinguer des paires minimales accen-
tuelles (ex. número ['nu-me-ɾo], le numéro et numero [nu-'me-ɾo], je numérote).
Étant donné la nature libre de l'accent espagnol, si un apprenant de
l'espagnol devait lire des mots qu'ils ne connaît pas (et donc, déterminer la
syllabe accentuée), il pourrait se baser sur la règle suivante: l'accent lexical
tombe sur la dernière syllabe d'un mot si ce dernier se termine par une
syllabe fermée (ex. hablar [a-'blaɾ], parler) et tombe sur l'avant-dernière
syllabe si le mot se termine par une syllabe ouverte (ou par –n ou –s) (ex.
hablo ['a-blo], je parle; casas ['ka-sas], les maisons). Toute exception à cette
règle est indiquée par un accent graphique qui indique la syllabe accentuée
(número, ['nu-me-ɾo], le numéro; esquí [es-'ki], ski; ágil ['a-xil], agile).
Bien que la réalisation acoustique de l’accent primaire implique, tant en
français qu’en espagnol, une variation des trois paramètres acoustiques
(durée, fréquence fondamentale (F0) et intensité; correspondant aux
paramètres perceptifs suivants: longueur, hauteur et intensité), les deux
langues n'utilisent pas lesdits paramètres de la même manière. Comme le
soulignent Delattre (1938) et Léon (2007), une syllabe accentuée en français
est en moyenne deux fois plus longue qu'une syllabe inaccentuée. Une
augmentation de la durée des syllabes inaccentuées à l'approche de la
syllabe accentuée est également caractéristique de l'accentuation en
français (Léon & Martin, 2000). De plus, les syllabes accentuées en français
peuvent aussi être accompagnées d'une montée de F0. Toutefois, comme le
signale Vaissière (1991), en raison du syncrétisme entre accentuation et
intonation, on pourrait davantage attribuer les mouvements de F0 à la
présence de frontières prosodiques qu'à la présence d'un accent.
Finalement, l'intensité ne joue pas un rôle primordial dans l'accentuation
en français, du moins en ce qui concerne l'accent non emphatique (Delattre,
1966).

3
Il est également possible de rencontrer le patron "superproparoxyton" dans des
combinaisons comme ábremelo (ouvre-le-moi) (Quilis, 1993).
4
Cependant, selon certains auteurs (par exemple, Pamies & Amorós, 2005), le déplacement
du pic de F0, caractéristique de l'accent espagnol (Llisterri, Machuca, de la Mota, Riera &
Ríos, 1995), constituerait, d'une certaine manière, un indice de la fonction démarcative de
l'accent espagnol.
Sandra SCHWAB 73

Quant à l'espagnol, on observe, comme pour le français, que la durée de la


syllabe accentuée est supérieure à celle de la syllabe inaccentuée
(Canellada & Madsen, 1987). L'accent se réalise également par une
variation de F0 qui est plus élevée sur les syllabes accentuées que sur les
syllabes non accentuées (Quilis, 1981), ce qui laisse penser que la durée et
F0 jouent un rôle complémentaire dans la manifestation phonétique de
l’accent en espagnol. De plus, même si la tradition philologique a soutenu
que l’accent espagnol serait surtout un accent d’intensité, l'intensité
semble ne jouer qu'un rôle secondaire dans la réalisation de l'accent
espagnol (Quilis, 1981). Une étude récente (Llisterri, Machuca, Ríos &
Schwab, soumis) confirme la contribution majeure de la durée et de F0,
ainsi que le rôle mineur de l'intensité, dans la distinction entre syllabes
accentuées et inaccentuées en espagnol.
En résumé, les différences les plus importantes entre l’accent français et
espagnol se trouvent dans la nature même des systèmes accentuels.
Tandis que l'accent espagnol dit "libre" peut apparaître sur l'une des trois
syllabes d'un mot, l'accent français, fixe, apparaît sur la dernière syllabe.
La différence concernant le domaine dans lequel se réalise l'accent est
plus importante encore: alors que l'accent espagnol se réalise au niveau
lexical, l'accent français apparaît au niveau supralexical (au niveau du
groupe accentuel), puisque seule la dernière syllabe d'un groupe accentuel
est accentuée.
Sur le plan de l'apprentissage d'une langue seconde 5 , les différences
accentuelles entre le français et l'espagnol laissent supposer, par analogie
au crible phonologique (Troubetzkoy, 1949), l'existence d'un transfert
accentuel entre ces deux langues, plus précisément dans le cas qui nous
intéresse ici, un transfert de l'accentuation espagnole vers le français. Si
de nombreux modèles tentent de rendre compte de l'apprentissage des
aspects segmentaux d'une langue seconde (entre autres, PAM (Perceptual
Assimilation Model), Best, 1995; SLM (Speech Learning Model), Flege,
1995), les modèles portant sur l'apprentissage des aspects
suprasegmentaux se font beaucoup plus rares. Ainsi, quelques modèles ont
été proposés pour rendre compte de la production de l'accentuation en L2.
Le premier, que nous nommerons, selon Kijak (2009), Modèle différentiel,
basé sur une analyse contrastive de L1 et L2, stipule que la production de
l'accent en L2 dépend des différences entre les propriétés métriques de
l'accent en L1 et L2 (entre autres, Archibald, 1995). Le deuxième modèle, le
Modèle des valeurs par défaut (Dresher & Kaye, 1990), qui se base sur une
liste de valeurs par défaut pour les différents paramètres accentuels (par
exemple, la valeur par défaut du paramètre "Sensibilité à la quantité" est

5
Bien que les termes "langue seconde" (L2) et "langue étrangère" (LE) ne soient pas
synonymes (Baralo, 1999), ils sont utilisés de manière interchangeable dans cet article, tout
comme les termes "langue maternelle" et "langue première" (L1).
74 Apprenants hispanophones de FLE et accentuation en français

"insensible"), suggère que l'acquisition de l'accentuation en L2 implique un


"réglage" des paramètres de l'accentuation à des valeurs par défaut. Un
troisième modèle, le Stress Typology Model (STM, Altmann & Vogel, 2002),
initialement conçu pour la perception de l'accent en L2, mais également
valide pour la production de l'accentuation en L2 (Altmann, 2006), se fonde,
quant à lui, sur une typologie hiérarchique des phénomènes accentuels
observables dans le mot (langues à accent/langues sans accent; position
de l'accent prédictible/imprédictible; sensibilité à la quantité/insensibilité
à la quantité; accent à droite/à gauche du mot) et prédit des degrés
différents de difficultés dans l'acquisition de l'accentuation dans une L2
par des locuteurs de diverses L1. Finalement, le Stress Deafness Model
(SDM), comme son nom l'indique, est un modèle psycholinguistique conçu
pour la perception de l'accent (Peperkamp & Dupoux, 2002), mais qui, selon
Kijak (2009), s'applique aussi à la production de l'accent. Selon ce modèle,
le fait que l'accent soit encodé dans le lexique de la L1 facilite la perception
de l'accent en L2, et, selon Kijak (2009), également la production de
l'accent en L2.
Cependant, parmi les recherches effectuées dans le cadre de l'élaboration
de ces modèles, aucune ne porte, à notre connaissance, sur le cas qui nous
intéresse dans ce travail, à savoir l'apprentissage de l'accentuation en
français, langue à accent fixe, par des apprenants natifs de l'espagnol,
langue à accent libre. La seule étude, à notre connaissance, à avoir
examiné la production de l'accent des hispanophones dans une langue à
accent fixe est celle de Kijak (2009) qui a travaillé sur le polonais, une
langue avec un accent fixe sur l'avant-dernière syllabe du mot. Son étude
révèle que, bien que peu nombreuses, les erreurs de placement de l'accent
des hispanophones en polonais proviennent d'un transfert de
l'accentuation espagnole en polonais L2. En effet, les natifs de l'espagnol
placent plus souvent l'accent sur la dernière syllabe du mot lorsque celui-ci
se termine par une syllabe fermée que lorsqu'il se termine par une syllabe
ouverte. Rappelons ici que, comme nous l'avons mentionné plus haut,
l'accent espagnol se trouve sur la dernière syllabe du mot lorsqu'elle est
fermée et sur l'avant-dernière syllabe lorsque la syllabe finale du mot est
ouverte (ou qu'elle se termine par un –n ou un –s). Les hispanophones ont,
dans quelques cas, transféré ce savoir de leur langue maternelle en
polonais L2.
L'objectif de la recherche présentée dans cet article est d'examiner dans
quelle mesure les apprenants hispanophones de français langue étrangère
transfèrent les propriétés accentuelles de l'espagnol vers le français L2.
Deux variables ont été prises en compte dans cette étude: la structure
syllabique des mots, au vu de son importance dans la position de l'accent
en espagnol; la position (accentuée/non-accentuée) du mot au sein du
Sandra SCHWAB 75

groupe accentuel, étant donné que l'accent est réalisé au niveau lexical en
espagnol et au niveau du groupe accentuel en français.

2. Méthode

2.1 Participants
Six participants ont pris part à cette expérience: trois locuteurs
francophones natifs (deux hommes et une femme) et trois locuteurs
hispanophones (un homme et deux femmes) apprenants avancés de
français (B2-C1). Les locuteurs hispanophones, tous originaire de la
Péninsule Ibérique (Castille, Estrémadure, Andalousie), vivaient à Genève
au moment de l’expérience et avaient vécu au moins deux ans dans un pays
francophone. Le français constituait pour chacun d’entre eux une deuxième
langue étrangère après l’anglais.

2.2 Matériel
Dix-huit non-mots trisyllabiques ont été créés en suivant les règles
phonotactiques du français. Ces non-mots présentaient la structure
syllabique CV.CV.CV et les caractéristiques suivantes: 1) ils commençaient
tous par l'une des consonnes occlusives sourdes /p/, /t/, /k/, qui
apparaissaient chacune au début de six non-mots; 2) les trois voyelles à
l'intérieur du non-mot étaient /i/, /a/ et /u/, qui apparaissaient chacune six
fois dans chaque position (1ère, 2ème et 3ème syllabe) sur l'ensemble des
stimuli. Nous avons évité les voyelles avec un accent graphique (étant
donné que l'accent graphique en espagnol indique la syllabe accentuée),
les voyelles nasales (étant donné leur graphie peu transparente) et les
voyelles pouvant présenter un timbre ouvert ou fermé; 3) chaque syllabe
initiale (/pi/, /pa/, /pu/, /ti/, /ta/, /tu/, /ki/, /ka/, /ku/) apparaissait deux fois
sur l'ensemble des stimuli; 4) les consonnes attaques des syllabes
médianes et finales étaient /p/, /t/, /k/, /m/, /n/, /l/ qui apparaissaient
chacune trois fois dans chaque position (syllabe médiane et finale) sur
l'ensemble des stimuli. Nous avons exclu les consonnes occlusives sonores
en raison de leur prononciation approximante en espagnol (qui, si
prononcée ainsi en français, aurait rendu l'alignement des phones du non-
mot particulièrement difficile); 5) chaque syllabe de la liste suivante
apparaissait une fois en position médiane et une fois en position finale:
/ka/, /ku/, /ki/, /la/, /li/, /lu/, /ma/, /mi/, /mu/, /na/, /ni/, /nu/, /pa/, /pi/,
/pu/, /ta/, /ti/, /tu/
À chaque non-mot se terminant par une syllabe ouverte CV.CV.CV (ex.
poutila, caloupi, toutali, talicou) était associé un non-mot se terminant par
une syllabe fermée (CV.CV.CVC) dont la consonne finale était /R/ ou /l/, ces
deux consonnes apparaissant chacune dans neuf non-mots (ex. poutilar,
76 Apprenants hispanophones de FLE et accentuation en français

caloupil, toutalil, talicour). Au total, 36 non-mots ont été utilisés dans cette
expérience: 18 avec la structure syllabique CV.CV.CV (Condition CV) et 18
avec la structure syllabique CV.CV.CVC (Condition CVC)
Nous avons créé six phrases porteuses: trois phrases dans lesquelles le
non-mot jouait le rôle d'un substantif en position accentuée au sein du
groupe accentuel (Contexte Substantif; ex. un certain poutila || piquait tous
les touristes), et en contrepartie, trois phrases dans lesquelles le non-mot
jouait le rôle d'un adjectif dans une position non-accentuée au sein du
groupe accentuel (Contexte Adjectif; ex. un poutila pic || était très utile).
Dans toutes les phrases, nous avons fait suivre le non-mot d'un mot
commençant par une consonne occlusive sourde (ex. piquait, pic), afin de
faciliter l'alignement des phones du non-mot.
Chacun des 36 non-mots CV et sa contrepartie CVC ont été introduits dans
l'une des paires de phrases porteuses, de telle sorte que chaque phrase
porteuse apparaisse le même nombre de fois. Au total, 72 phrases ont été
utilisées dans cette expérience.

2.3 Procédure
Les participants ont été enregistrés individuellement dans une pièce
insonorisée. L'expérience se divisait en deux parties. Dans l'une d'entre
elles, les participants produisaient les phrases contenant le non-mot
substantif et dans l'autre, ils produisaient les phrases contenant le non-
mot adjectif. La moitié des participants commençaient avec les non-mots
substantifs et l'autre moitié avec les non-mots adjectifs.
Chaque non-mot était présenté (sur un écran d'ordinateur) dans un premier
temps en isolé, et dans un deuxième temps, dans la phrase porteuse, afin
de faciliter la production du non-mot en parole continue. Les participants
devaient lire les non-mots et les phrases à un débit normal, et en cas
d'hésitation, ils devaient répéter le non-mot ou la phrase.

2.4 Analyse des données


Toutes les productions ont été automatiquement alignées en phones
(EasyAlign sous Praat; Boersma & Weenink, 2011; Goldman, 2011) et
manuellement corrigées. Nous avons exclu des analyses les productions
dans lesquelles une pause suivait le non-mot (6% des données) en raison
du statut particulier des syllabes prépausales. Etant donné que le non-mot
était suivi d'un mot commençant par une consonne occlusive sourde, nous
avons établi la procédure suivante afin de déterminer la présence d'une
"véritable" pause après le non-mot. Pour chaque production, nous avons
mesuré le silence de plosion de la consonne occlusive suivant le non-mot
(ex. poutila#pic). Pour chaque locuteur, nous en avons calculé la durée
Sandra SCHWAB 77

moyenne et l'écart-type sur l'ensemble de ses productions. Puis, nous


avons obtenu une valeur limite en ajoutant 2 écarts-type à la moyenne. Si le
silence de plosion était supérieur à cette valeur limite, le silence était
considéré comme une pause; s'il était inférieur, il gardait son statut de
silence de plosion.
Nous avons effectué des mesures sur quatre voyelles: les trois voyelles du
non-mot (V1, V2, V3; ex. un poutila pic) et la voyelle suivant le non-mot (Vp1;
ex. un poutila pic). Pour chacune des voyelles, nous avons extrait les
valeurs des paramètres suivants: la durée (en ms), la valeur moyenne de F0
(en Hz)6 et la valeur maximale d'intensité (en dB). En ce qui concerne F0, les
valeurs ont été obtenues en utilisant l'algorithme de Hirst (2011), afin de
minimiser les erreurs de détection de F0 de Praat.
Pour chacun des paramètres examinés (durée, F0, et intensité), nous avons
obtenu, pour chaque production, la moyenne sur les quatre voyelles. Puis,
nous avons calculé le rapport, pour chaque voyelle, entre sa valeur et la
moyenne des quatre voyelles. Par exemple, un rapport de 1 pour la durée
indique que la durée de la voyelle est similaire à la durée moyenne des
quatre voyelles; un rapport supérieur à 1 exprime que la durée de la voyelle
est supérieure à la durée moyenne des quatre voyelles, et un rapport
inférieur à 1 indique qu'elle est inférieure. Nous avons analysé les données
au moyen de modèles mixtes, dans lesquels nous avons entré les locuteurs
et les non-mots comme variables aléatoires (Baayen, Davidson & Bates,
2008; Bates & Sarkar, 2007). Des analyses séparées ont été effectuées pour
chacun des paramètres (durée, F0, intensité). Pour chacune d'entre elles,
les prédicteurs étaient les suivants: groupe (FR/HISP), structure syllabique
(CV/CVC), contexte (substantif/adjectif), voyelle (V1, V2, V3, Vp1).

2.5 Prédictions
En ce qui concerne la structure syllabique du non-mot (CV/CVC), nous
prédisons que, si transfert il y a, elle jouera un rôle différent chez les
locuteurs francophones et hispanophones. Chez les premiers, nous nous
attendons à ne pas trouver de différences entre l'accentuation des non-
mots CV et CVC. Chez les seconds, en revanche, nous prédisons une
accentuation sur la deuxième syllabe des non-mots CV et sur la dernière
syllabe des non-mots CVC, et ce, en raison des règles d'accentuation en

6
Désireux de fournir une description acoustique, nous n'avons pas analysé les données avec
la méthodologie ToBI (Beckman, Hirschberg & Shattuck-Hufnagel, 1997) qui propose un
codage tonal. Notons encore que, bien qu'il existe diverses mesures relatives à F0 (entre
autres, la valeur maximale de F0 ou la pente de F0), notre choix s'est porté sur la valeur
moyenne de F0, couramment utilisée par les chercheurs en prosodie (par exemple, Boula de
Mareüil, Adda-Decker, Woehrling, Bardiaux, & Simon, 2012). À l'avenir, nous pourrions
également examiner les valeurs de F0 issues du modèle de Fujisaki qui cherche à modéliser
les contours intonatifs (Fujisaki, 1984; Leemann, 2012).
78 Apprenants hispanophones de FLE et accentuation en français

espagnol. Autrement dit, en termes statistiques, nous nous attendons à


trouver une interaction triple impliquant la structure syllabique, le groupe
et la voyelle.
Pour ce qui est du contexte (substantif/adjectif) dans lequel se trouve le
non-mot, nous nous attendons également, si transfert il y a, à trouver un
effet différent chez les francophones et chez les hispanophones. Chez les
premiers, nous prédisons que la dernière syllabe du non-mot substantif
(V3) sera accentuée, étant donné sa position en fin de groupe accentuel, et
que la dernière syllabe du non-mot adjectif (V3) perde son accent au profit
de l'accent sur la dernière syllabe du groupe accentuel (Vp1), afin d'éviter la
collision accentuelle entre deux syllabes adjacentes (Post, 1999). Chez les
hispanophones, par contre, nous prédisons une accentuation similaire sur
les non-mots substantifs et adjectifs, étant donné l'accent lexical de
l'espagnol. En termes statistiques, nous nous attendons à trouver une
interaction triple impliquant le contexte, le groupe et la voyelle.

3. Résultats et discussion

3.1 Durée
Les résultats n'ont pas montré d'interaction triple impliquant la structure
syllabique, le groupe et la voyelle (F(3, 1599)= 2.44, n.s.). Ainsi,
contrairement à nos prédictions, la structure syllabique n'a pas un effet
différent chez les francophones et chez les hispanophones. Nous avons
donc réuni les données CV et CVC et nous avons calculé un nouveau modèle
en excluant la structure syllabique des prédicteurs. Comme on peut le voir
sur la Figure 1, cette nouvelle analyse a révélé une interaction Contexte x
Voyelle (F(3, 1612) = 191.75, p < .001), une interaction Groupe x Voyelle (F(3,
1612) = 5.45, p < .001), et pas d'interaction triple Contexte x Groupe x
Voyelle (F(3, 1612) = 0.37, n.s.)7. L'absence d'une interaction triple indique
que, contrairement à nos attentes, la différence entre la production des
non-mots substantifs et adjectifs est similaire chez les francophones et
chez les hispanophones.

7
Notons ici que l'examen des effets simples de Groupe, Contexte et Structure syllabique n'a
aucun intérêt, étant donné que toutes les moyennes de ces effets simples sont à 1 (puisque
chaque rapport a été calculé sur la base de la moyenne des quatre voyelles). Cela vaut
également pour les analyses de F0 et d'intensité.
Sandra SCHWAB 79

SUBSTANTIF EN POSITION ACCENTUEE ADJECTIF EN POSITION NON-ACCENTUEE


1.5 1.5
FR FR
1.4 1.4
HISP HISP
1.3 1.3
Durée (rapport)

Durée (rapport)
1.2 1.2

1.1 1.1

1.0 1.0

0.9 0.9

0.8 0.8

0.7 0.7

0.6 0.6
V1 V2 V3 Vp1 V1 V2 V3 Vp1
Voyelle Voyelle

Fig. 1: Durée (exprimée en rapport) en fonction de la voyelle et du groupe pour les non-mots
substantifs en position accentuée à gauche et pour les non-mots adjectifs en position non-
accentuée à droite (les données CV et CVC sont réunies)

L'interaction entre le contexte et la voyelle n'a rien de surprenant: quel que


soit le groupe de locuteurs, on observe (cf. Figure 1), dans les non-mots
substantifs (en position accentuée) un allongement progressif de V1 à V3
(la voyelle porteuse d'accent) et une durée plus courte sur Vp1, alors que
dans les non-mots adjectifs (en position non-accentuée), on observe un
allongement progressif de V1 à Vp1 (la voyelle porteuse de l'accent). Ainsi,
les deux voyelles porteuses de l'accent (V3 dans les non-mots substantifs
et Vp1 dans les non-mots adjectifs) présentent une durée plus longue, que
cela soit chez les francophones ou chez les hispanophones.
L'interaction entre le groupe et la voyelle révèle que, si l'on réunit les
données des deux contextes (substantif et adjectif), les différences entre
les hispanophones et les francophones ne sont pas significatives sur V1, V2
et Vp1, alors que les hispanophones produisent la dernière voyelle du non-
mot (V3) avec une durée significativement supérieure à celle des
francophones.
En résumé, en ce qui concerne la durée, ni la structure syllabique, ni le
contexte dans lequel se trouve le non-mot ne permettent de distinguer les
productions des hispanophones de celles de francophones. Seule la
dernière voyelle du non-mot reflète une différence entre les deux groupes
de locuteurs: la voyelle est plus longue chez les hispanophones que chez
les francophones.

3.2 F0
L'analyse n'a pas montré d'interaction triple impliquant la structure
syllabique, le groupe et la voyelle (F(3, 1588)= 1.68, n.s.). Ainsi, comme pour
la durée, contrairement à nos prédictions, la structure syllabique n'a pas un
80 Apprenants hispanophones de FLE et accentuation en français

effet différent chez les francophones et chez les hispanophones. Nous


avons donc regroupé les données CV et CVC et nous avons calculé un
nouveau modèle en excluant la structure syllabique des prédicteurs.
Comme on peut le voir sur la Figure 2, cette nouvelle analyse a révélé une
interaction Contexte x Voyelle (F(3, 1601) = 280.84, p < .001), une
interaction Groupe x Voyelle (F(3, 1601) = 89.41, p < .001) et une interaction
triple Contexte x Groupe x Voyelle (F(3, 1601) = 10.06, p < .001).
L'interaction triple provient principalement de Vp1, qui présente une
différence significative entre les francophones et les hispanophones dans
les non-mots adjectifs mais pas dans les non-mots substantifs. Ainsi,
contrairement à nos prédictions, la différence entre la production des non-
mots (V1, V2 et V3) substantifs et adjectifs est similaire chez les
francophones et les hispanophones.
A nouveau, l'interaction entre le contexte et la voyelle n'est pas
surprenante: qu'il s'agisse des locuteurs francophones ou hispanophones,
on observe (cf. Figure 2), dans les non-mots substantifs en position
accentuée, une chute de F0 de V1 à V2, une montée de V2 à V3 (la voyelle
porteuse de l'accent), puis une chute de V3 à Vp1, alors que dans les non-
mots adjectifs en position non-accentuée, on note une chute de F0 de V1 à
V3, puis une montée de V3 à Vp1 (la voyelle porteuse de l'accent).
L'interaction entre le groupe et la voyelle indique que si l'on réunit les
données des non-mots substantifs et adjectifs, les hispanophones
présentent une F0 inférieure à celle des francophones sur V1 et V2, mais
une F0 supérieure sur V3 et Vp1.

SUBSTANTIF EN POSITION ACCENTUEE ADJECTIF EN POSITION NON-ACCENTUEE


1.3 1.3
FR FR
1.2 1.2 HISP
HISP

1.1 1.1
F0 (rapport)

F0 (rapport)

1.0 1.0

0.9 0.9

0.8 0.8

0.7 0.7

0.6 0.6
V1 V2 V3 Vp1 V1 V2 V3 Vp1
Voyelle Voyelle

Fig. 2: F0 (exprimée en rapport) en fonction de la voyelle et du groupe pour les non-mots


substantifs en position accentuée à gauche et pour les non-mots adjectifs en position non-
accentuée à droite (les données CV et CVC sont réunies)

En résumé, pour ce qui est de F0, les productions des non-mots des
hispanophones et des francophones ne se distinguent ni par l'effet de la
structure syllabique, ni par l'impact du contexte dans lequel se trouve le
Sandra SCHWAB 81

non-mot. Les voyelles du non-mot permettent, en revanche, de différencier


les productions des deux groupes. Ainsi, comme pour la durée, la dernière
voyelle du non-mot révèle des différences entre les hispanophones et les
francophones: les premiers présentent une F0 plus élevée que les seconds.

3.3 Intensité
Les résultats n'ont pas montré d'interaction triple impliquant la structure
syllabique, le groupe et la voyelle (F(3, 1588) = 0.43, n.s.). Ainsi, comme
pour la durée et F0, et contrairement à nos prédictions, la structure
syllabique n'a pas un effet différent chez les francophones et chez les
hispanophones. Nous avons donc réuni les données CV et CVC et nous
avons calculé un nouveau modèle en excluant la structure syllabique des
prédicteurs. Cette nouvelle analyse a révélé, comme on peut l'observer sur
la Figure 3, une interaction Contexte x Voyelle (F(3, 1601) = 280.84, p < .001),
mais pas d'interaction Groupe x Voyelle (F(3, 1612) = 0.63, n.s.) ni
d'interaction triple Contexte x Groupe x Voyelle (F(3, 1612) = 1.74, n.s.).
Ainsi, l'absence d'interaction triple reflète que la différence entre la
production des non-mots substantifs et adjectifs est similaire chez les
francophones et chez les hispanophones. L'interaction entre le contexte et
la voyelle révèle, dans les non-mots substantifs, une intensité similaire de
V1 à V3 et une diminution de l'intensité de V3 à Vp1, et ce, qu'il s'agisse de
francophones ou d'hispanophones. Dans les non-mots adjectifs, on
observe par contre une augmentation de l'intensité de V1 à V2 et une
intensité similaire de V2 à Vp1, autant pour les francophones que pour les
hispanophones. On remarque donc que la voyelle porteuse de l'accent n'est
pas marquée par une augmentation d'intensité, quel que soit le groupe de
locuteurs.

SUBSTANTIF EN POSITION ACCENTUEE ADJECTIF EN POSITION NON-ACCENTUEE


1.1 1.1
FR FR
HISP HISP
1.0 1.0
Intensité (rapport)
Intensité (rapport)

0.9 0.9

0.8 0.8

0.7 0.7
V1 V2 V3 Vp1 V1 V2 V3 Vp1
Voyelle Voyelle

Fig. 3: Intensité (exprimée en rapport) en fonction de la voyelle et du groupe pour les non-mots
substantifs en position accentuée à gauche et pour les non-mots adjectifs en position non-
accentuée à droite (les données CV et CVC sont réunies)
82 Apprenants hispanophones de FLE et accentuation en français

De plus, contrairement à ce que l'on observe pour la durée et F0, l'absence


d'interaction entre le groupe et la voyelle indique que les hispanophones
produisent les quatre voyelles de la même manière que les francophones.
En résumé, en ce qui concerne l'intensité, la production des non-mots des
hispanophones ne se distingue en rien de celle des francophones.

4. Discussion générale

Cette recherche avait pour but d'examiner dans quelle mesure les locuteurs
natifs de l'espagnol transfèrent certaines propriétés accentuelles de
l'espagnol en français L2. Pour cela, nous avons cherché à étudier l'impact
que peuvent avoir la structure syllabique (CV/CVC) et le contexte
(accentué/non-accentué) sur la production de non-mots par des
francophones natifs et des hispanophones apprenants avancés de français.
Tout d'abord, concernant la structure syllabique, nous prédisions des
différences entre les non-mots CV et CVC chez les hispanophones mais pas
de différences chez les francophones. Autrement dit, nous nous attendions
à trouver, si transfert il y avait, une interaction triple impliquant la
structure syllabique, le groupe et la voyelle. Toutefois, l'absence d'une telle
interaction (que cela soit pour la durée, F0 ou l'intensité) indique que les
hispanophones se comportent comme les francophones, dans le sens que
leur production des non-mots ne se voit pas davantage affectée par la
structure syllabique. Ils n'ont donc pas transféré leurs connaissances
concernant la position de l'accent en espagnol vers le français L2.
En ce qui concerne le contexte, nous prédisions des différences chez les
francophones entre la production des non-mots substantifs en position
accentuée et des non-mots adjectifs en position non-accentuée, mais pas
de différences chez les hispanophones. Autrement dit, nous nous
attendions à trouver une interaction triple impliquant le contexte, le groupe
et la voyelle. L'absence d'interaction reflète néanmoins que les différences
entre les non-mots substantifs et les non-mots adjectifs constatées chez
les francophones sont également observées chez les hispanophones. En
effet, ces derniers, comme les francophones, accentuent la syllabe
porteuse de l'accent (i.e. la dernière syllabe du groupe accentuel): ils
accentuent ainsi la dernière syllabe du non-mot (V3) lorsque ce dernier se
trouve dans la position d'un substantif accentué (ex. un certain poutila ||
piquait tous les touristes), alors qu'ils accentuent le mot monosyllabique
suivant le non-mot (Vp1) lorsque celui-ci est un adjectif non-accentué (ex.
un poutila pic || était très utile). De plus, les locuteurs hispanophones, de
même que les francophones, marquent la syllabe accentuée au moyen de
variations de durée et de F0, mais pas d'intensité (ce qui semble confirmer
le rôle peu important de l'intensité dans la réalisation de l'accent français).
Sandra SCHWAB 83

Dans l'ensemble, ces résultats indiquent que des hispanophones


apprenants avancés de français sont capables de réaliser un accent final
en français. Toutefois, il se peut qu'ils aient reproduit le schéma
prosodique (S)(VO) qui se trouve fréquemment dans ce genre de phrases en
espagnol (D’Imperio, Elordieta, Frota, Prieto & Vigario, 2005) et qu'ils aient
placé et réalisé, en français, une frontière après le syntagme nominal sujet
comme ils l'auraient fait en espagnol. Une étude similaire à celle présentée
dans cet article a été effectuée en espagnol afin d'examiner la réalisation
acoustique de l'accent lexical et de la frontière syntactico-prosodique en
espagnol dans des phrases telles que "La guapa putila || cruzaba la calle"
(la jolie putila traversait la rue) ou "La putila cruz || aparecerá" (la putila
croix apparaîtra). Les résultats préliminaires montrent que la frontière
après le syntagme nominal sujet est réalisée par une augmentation de F0,
mais pas par une variation de durée ni d'intensité. Etant donné que les
hispanophones ont marqué, en français, la syllabe accentuée – et par
conséquent la frontière après le syntagme nominal sujet (en raison du
syncrétisme en français entre accentuation et intonation) – au moyen d'une
augmentation de durée (contrairement à ce qu'ils feraient en espagnol), il
semblerait qu'ils n'aient pas simplement calqué le schéma (S)(VO) de
l'espagnol. Toutefois, des analyses plus approfondies sont nécessaires afin
de confirmer ces premières observations.
Nos résultats ont également mis en évidence que, malgré le fait que les
hispanophones soient capables de produire un accent final en français, ils
ont tendance, quel que soit le contexte (accentué ou non-accentué), à
produire la dernière syllabe du non-mot avec une durée et une F0
supérieures à celles des francophones. Dans le contexte du substantif en
position accentuée, ces indices peuvent refléter une suraccentuation de la
syllabe porteuse de l'accent par les hispanophones. Toutefois, étant donné
que la position de l'accent en français coïncide avec la présence d'une
frontière prosodique, il nous est difficile de déterminer si la réalisation de
la syllabe accentuée dans ce contexte est conditionnée par la présence de
l'accent et/ou de la frontière prosodique. Quant au contexte adjectif en
position non-accentuée, la présence de tels indices (durée plus longue, F0
plus élevée) suggérerait que les hispanophones accentuent la dernière
syllabe du non-mot. Ainsi, il semblerait que les hispanophones aient acquis
la connaissance que la position de l'accent est fixe en français (sur la
dernière syllabe), mais ils n'ont pas encore assimilé le fait que l'accent
français est réalisé au niveau du groupe accentuel et non pas, comme en
espagnol, au niveau lexical.
Ainsi, nos résultats montrent que les apprenants avancés hispanophones
ne transfèrent pas simplement les propriétés accentuelles de leur langue
maternelle vers le français L2. Il semblerait que le système accentuel de
leur interlangue soit complexe. En effet, bien que les hispanophones
84 Apprenants hispanophones de FLE et accentuation en français

maîtrisent la position finale de l'accent français, leur représentation de


l'accent français semble encore être lexicale, puisque outre la syllabe
porteuse de l'accent, ils accentuent également la dernière syllabe d'un
adjectif normalement inaccentué. Ces conclusions doivent être confirmées
par une étude menée auprès d'un plus grand nombre de participants. De
plus, d'autres facteurs tels que, par exemple, le débit auquel sont
produites les phrases et la nature des voyelles examinées devraient
également être pris en considération. En conclusion, les résultats de ce
travail préliminaire, nous donnent d'intéressantes pistes de recherche pour
de futures études sur l'accentuation des hispanophones en français L2,
domaine peu étudié jusqu'à présent.

Remerciements

Nous tenons à remercier Mathieu Avanzi, Lorraine Baqué, Maria Angeles


Barquero, Isabelle Racine et Françoise Zay pour leur aide dans l'élaboration
de cette étude. Nous remercions également les deux experts qui ont révisé
cet article pour leurs judicieux commentaires. Cette recherche a pu être
entreprise et menée à bien grâce à un subside du Fonds National Suisse de
la Recherche Scientifique (100012_132144/1; direction: I. Racine).

Bibliographie

Alcoba, S. & Murillo, J. (1998): Intonation in Spanish. In: D. Hirst & A. Di Cristo (eds.), Intonation
Systems. Cambridge (Cambridge University Press), 152-166.
Altmann, H. & Vogel, I. (2002): L2 acquisition of stress: The role of L1. Communication presented at
DGfS Annual Meeting Multilingualism Today, Mannheim, Germany, March 2002.
Altmann, H. (2006): The perception and production of second language stress: A cross-linguistic
experimental study. Ph.D. Dissertation, University of Delaware.
Archibald, J. (1995): The acquisition of stress. In: J. Archibald (ed.), Phonological Acquisition and
Phonological Theory. New Jersey (L. Erlbaum Associates Inc), 81-109.
Baayen, R. H., Davidson, D. J. & Bates, D. M. (2008): Mixed effects modeling with crossed random
effects for subjects and items. Journal of Memory and Language, 59, 390-412.
Baralo, M. (1999): La adquisición del español como lengua extranjera. Madrid (Arco libros).
Bates, D. M. & Sarkar, D. (2007): lme4: Linear mixed-effects models using S4 classes, R package
version 2.6.
Beckman, M., Hirschberg, J. & Shattuck-Hufnagel, S. (2004): The original ToBI system and the
evolution of the ToBI framework. In: S.-A Jun (ed.), Prosodic models and Transcription:
Towards Prosodic Typology. Oxford (Oxford University Press).
Best, C. T. (1995): A direct realistic view of cross-language speech perception. In: W. Strange (ed.),
Speech perception and linguistics experience: Issues in cross-language research. Baltimore
(York Press), 233-277.
Boersma, P. & Weenink, D. (2011): Praat: doing phonetics by computer (Version 5.2).
www.praat.org.
Sandra SCHWAB 85

Boula de Mareüil, P., Woehrling, C., Adda-Decker, M., Bardiaux, A. & Simon A.-C. (2012): Une étude
par traitement automatique de la prosodie du français à la frontière des domaines roman et
germanique. In A.-C. Simon (dir.), La variation prosodique régionale en français, Bruxelles
(De Boeck), 121-138.
Canellada, M. J. & Madsen, J. K. (1987): Pronunciación del español. Lengua hablada y literaria.
Madrid (Castalia).
Carton, F. (1997): Introduction à la phonétique du français. Paris (Dunod).
D’Imperio, M., Elordieta, G., Frota, S., Prieto, P. & Vigario, M. (2005): Intonational phrasing in
Romance: The role of syntactic and prosodic structure. In: S. Frota, M. Vigario and M.J.
Freitas (eds.), Prosodies: With special reference to Iberian languages. Berlin (Walter de
Gruyter), 59–97.
Delattre, P. (1938): L'accent final en français: accent d'intensité, accent de hauteur, accent de
durée. The French Review, 12, 141-145.
— (1966): Studies in French and comparative phonetics. The Hague (Mouton).
Dresher, B. E. & Kaye, J. (1990): A computational learning model for metrical phonology. Cognition,
34, 137-195.
Flege, J. E. (1995): Second language speech learning: theory, findings and problems. In: W. Strange
(ed.), Speech perception and linguistics experience: Issues in cross-language research.
Baltimore (York Press), 233-277.
Fujisaki, H. (1984): Analysis of voice fundamental frequency contours for declarative sentences of
Japanese. Journal of the Acoustical Society of Japan, 5.4, 233-42.
Goldman, J.-P. (2011): EasyAlign: An automatic phonetic alignment tool under Praat. Proc. 12th
Interspeech, 3233-3236.
Hirst, D. (2011): The analysis by synthesis of speech melody: From data to models. Journal of
Speech Sciences, 1(1), 55-83.
Kijak, A. (2009): How stressful in L2 stress? A cross-linguistic study of L2 perception and
production of metrical systems. Utrecht (LOT).
Lacheret-Dujour, A. & Beaugendre F. (1999): La prosodie du français. Paris (CNRS éditions).
Leemann, A. (2012): Swiss German Intonation Patters. Amsterdam / Philadelphia (Benjamins).
Léon, P. & Martin, P. (2000): Prosodie et technologie. In: E. Guimbretière (éd.), Apprendre,
enseigner, acquérir: la prosodie au cœur du débat. Rouen (Publications de l'Université de
Rouen), 135-150.
Léon, P. (2007): Phonétisme et prononciations du français. Paris (Armand Colin).
Llisterri, J., Machuca, M. J., de la Mota, C., Riera, M. & Ríos, A. (1995): Factors affecting F0 peak
displacement in Spanish. Proc Eurospeech’95. 4th European Conference on Speech
Communication and Technology, Madrid, vol. 3, 2251-2254.
Llisterri, J., Machuca, M., Ríos, A. & Schwab, S. (soumis): El acento léxico en contexto: Datos
acústicos. Proc. V Congreso de Fonética Experimental, Octubre 2011.
Pamies, A. & Amorós, M. C. (2005): Pico tonal, acento y fronteras morfo-semánticas: experimento
con hablantes granadinos. Estudios de Fonética Experimental, 14, 202-223.
Peperkamp, S. & Dupoux, E. (2002): A typological study of stress ‘deafness’. In: C. Gussenhoven, N.
Warner (eds.), Laboratory Phonology 7. Berlin (Mouton de Gruyter), 203-240.
Post, B. (1999): Restructured phonological phrases in French: Evidence from clash resolution.
Linguistics, 37/1, 41-63.
Quilis, A. (1981): Fonética acústica de la lengua española, Madrid (Gredos).
— (1993): Tratado de fonología y fonética españolas, Madrid (Gredos).
Rossi, M. (1979): Le français, langue sans accent. Studia Phonetica, 15, 13-52
86 Apprenants hispanophones de FLE et accentuation en français

— (1981): Le cadre accentuel et le mot en italien et français. In: P. Léon, M. Rossi (éds.),
Problèmes de prosodie. Paris (Didier), 9-22.
Troubetzkoy, N. S. (1949): Principes de Phonologie, Paris (Klincksieck).
Vaissière, J. (1991): Rhythm, accentuation and final lengthening. In: J. Sundberg, L. Nord, R.
Carlson (eds.), French in music, language, speech and brain. Wenner-Gren International
Symposium (Series Macmillan Press), Vol. 59, 108-120.
— (2002); Cross-linguistic prosodic transcription: French vs. English. In: N. B. Volskaya, N. D.
Svetozarova & P. A. Skrelin (eds.), Problems and methods of experimental phonetics. In
honour of the 70th anniversary of Pr. L. V. Bondarko. St Petersburg (St Petersburg State
University Press), 147-164.
Travaux neuchâtelois de linguistique, 2013, 59, 87-107

Rhythmic characteristics of voice between and


within languages

Volker Dellwo1 and Adrian Fourcin2


1
Phonetisches Laboratorium der Universität Zürich
2
Speech, Hearing and Phonetic Sciences, University College London

Die vorliegende Studie untersuchte die Rolle von stimmhaften Intervallen (d.h.
Intervalle laryngaler Aktivität) rhythmische Charakteristika im Sprachsignal zu
kodieren. Die Dauercharakteristika stimmhafter und stimmloser intervalle (%VO,
deltaUV, VarcoUV, VarcoVO, n-PVI_VO, r-PVI_UV) wurden analysiert. Aufgrund der
untersuchten Sprachen konnten wir zeigen, dass stimmhafte Dauercharakteristika
effektiv zu einer Klassifizierung von Sprachen führen, die einer auditorischen
Klassifizierung der Sprachen in Rhythmusklassen (akzentzählend, silbenzählend)
entspricht. Weiterhin fanden wir Variation zwischen den Sprechern einer Sprache
(Deutsch). Wir argumentieren, dass unsere Methode direkt verwandt mit der
möglicherweise auditiv hervortretensten Komponente der menschlichen Stimme (das
Stimmsignal) ist. Methodische Vorteile sind, dass die stimmlichen
Dauercharakteristika verlässlich automatisch aufgrund des Stimmsignals berechnet
werden können. Implikationen unserer Befunde zum Erwerb prosodischer Phänomene
und zur Wahrnehmung von Sprache durch Neugeborene werden diskutiert.

1. Introduction

In this paper we report on work-in-progress about the contribution of


voice-timing to the rhythmic organisation of speech, in particular about the
durational variability of voice patterns between different languages. Our
working hypothesis is that durational aspects of voiced and voiceless
intervals are highly salient in terms of our perception of speech rhythm. In
sections 2 and 3 the paper contains a revised version of results published
previously in electronic form (Fourcin and Dellwo, 2009). In section 4 we
report on within-language (speaker individual) variability of voiced and
unvoiced interval characteristics.
Why do we believe that durational characteristics of voiced intervals and
intervals combining unvoiced plus silence play a role in the organization of
speech rhythm? The acoustic cues of speech rhythm are to date not very
well understood. Early studies on speech rhythm (James, 1929; Pike, 1945;
Abercrombie, 1967) proposed the hypothesis that languages vary in their
perceptual rhythmic characteristics. Some languages like English or Arabic
were thought to sound rather irregularly timed (similar to the irregular
timing patterns of Morse code; hence: Morse-code rhythm; James, 1929)
other languages, like French or Yoruba, to sound more regularly timed
(similar to the regularity of bullet sounds from a machine-gun; hence:
machine-gun rhythm; James, 1929). At a later stage this terminology was
88 Rhythmic characteristics of voice between and within languages

relabelled into stress-timed and syllable-timed rhythm respectively as it


was believed that in stress-timed languages inter-stress intervals
(intervals between two stressed syllables) are regularly timed and in
syllable-timed languages the syllables of a speech signal are of similar
durations (isochrony-hypothesis; Pike, 1945; Abercrombie, 1969). The
rationale for the percept of irregularity in Morse-code languages is
probably motivated by the fact that stressed syllables can be expected to
be of a higher duration than unstressed syllables. Additional durational
variability occurs when the criterion of equal inter-stress intervals is met
as there are different numbers of syllables between the stressed syllables
that need to be adjusted in duration to meet the overall interval duration.
In summary, according to the isochrony-hypothesis it seems plausible that
the percept of rhythmic regularity in speech (machine-gun and Morse code
rhythm) is created by more or less regular syllabic durations in different
languages. About 30 years of research, however, between the 1960th and
the 1990th have not found acoustic evidence for this hypothesis (Dauer,
1983, 1987; Bolinger, 1981; Roach, 1982). One of the major shifts in studies
of speech rhythm after the 1990th was therefore the change of focus from
the syllable as a unit of analysis to consonantal (C-) and vocalic (V-)
intervals. Ever since it has been demonstrated repeatedly that a variety of
global durational characteristics of these intervals (mainly related to their
variability) can separate languages of different rhythmic classes (Ramus et
al., 1999; Grabe and Low, 2002). For example, syllable-timed languages
typically have a higher standard deviation of C-intervals (deltaC) and a
lower percentage of time over which speech is vocalic (%V) than stress-
timed languages (Ramus et al., 1990). Syllable-timed languages also reveal
higher average differences between consecutive C- and V-intervals,
measured by the Pairwise Variability Index (PVI; Grabe and Low, 2002).
Variants of these measures were developed for the analysis of speech,
revealing rate variability, as, for example, the coefficient of variation of C-
and V-interval durations (VarcoC, see Dellwo, 2006; VarcoV, see White and
Mattys, 2007). In many respects these more recent measures are similar
(sometimes identical) to measures that have been used previously for
analysing durational variability of syllables, like the standard deviation of
syllabic or foot durations — which were not found to reveal differences
between stress- and syllable-timed languages (Roach, 1982).
Measures based on durational C- and V-interval characteristics of speech,
however, are not without problems. To a certain degree results can be
replicated, like the finding that %V is higher in Italian than it is in German,
for example. The authors are not aware of a dataset showing contradictory
results. However, whether languages can be categorised into so called
stress- and syllable-timed languages is a matter of heavy debate and there
is evidence showing that there is strong systematic variability within
Volker DELLWO & Adrian FOURCIN 89

languages as a function of speaker or sentence, for example (Wiget et al.,


2010; Yoon, 2010) and that different languages can contribute to different
rhythmic classes depending on the measures used (Arvaniti, 2012). In
addition the hypothesis of whether languages can be classified into
different rhythm classes on an auditory basis has often been questioned.
All in all this means that the concept of rhythm classes must be taken with
caution. For simplicity reasons we have stayed with the terminology in the
present paper.
As discussed above, in the present research we concentrate on a different
unit that contributes to the temporal organization of speech: we use the
durations of voiced (VO-) and unvoiced (UV-) intervals in the speech signal.
Voiced intervals between the on- and offset of consecutive glottal activity.
Unvoiced intervals are intervals between the offset of glottal activity and
the onset of the following glottal activity. The main difference between this
choice of intervals and C-and V-intervals is that all voiced consonants are
part of the VO-intervals and only unvoiced consonants and the silences
they contain will make up the UV-intervals. This distinction does not rely on
any linguistic knowledge about the language and can be based entirely
either on the acoustic signal or the output from an electrolaryngograph.
What are the advantages in using VO-/UV- intervals rather than C- and V-
intervals? There are mainly two reasons motivating this work, (a) a practical
or methodological reason and (b) a perceptual reason. In regard to (a): it has
been shown in the past that measurements of C- and V-interval durations
are labour consuming since interval durations need to be manually labelled
or at least corrected. Fast automatic algorithms have been shown to be
very error prone. Techniques based on forced alignment have been used
but these, once more, require a transcription of the spoken data to be
reliable. This again is time consuming and indeed only feasible if the
recorded material is the same across speakers. An analysis based on VO-
and UV-intervals can be performed fully automatically because it relies on
acoustic information alone. This can be achieved on the basis of a
fundamental frequency analysis of the acoustic signal or, even more
reliably, using a signal directly derived from vocal fold vibration (e.g. with
an electro-laryngograph). Both methods have been applied and compared
in the present study. With respect to (b): behavioural experiments have
shown that adult human listeners (Ramus and Mehler, 1999), as well as
newborns (Nazzi et al., 1998; Ramus, 2002), monkeys (Ramus et al., 2000,
Rincoffet et al., 2005), and rats (Toro et al., 2003) can distinguish between
languages from different rhythmic classes on the basis of the durational
characteristics of C- and V-intervals. The perceptual tasks in these
experiments were typically performed with [sasasa] delexicalised speech
type tokens, in which all C-intervals were turned into [s] sounds and all V-
intervals into [a]. Listeners were thus given cues about the exact durations
90 Rhythmic characteristics of voice between and within languages

of C- and V-intervals. In the present paper we argue that listeners without


any linguistic knowledge of the language (such as infants, monkeys, or rats)
may have difficulty making these distinctions between C- and V-intervals in
real speech, in particular when 'consonantal' is attributed to segments
which reveal acoustically similar features to vowels (e.g. approximants and
nasals). Additionally it happens frequently that consonantal features in
clear speech are reduced to short V- intervals. A voiced fricative between
two vowels may lose all its frication and become more vowel like. We
therefore conclude that if listeners make use of interval durational features
in speech rhythm classification, these intervals will be highly influenced by
whether they are physically voiced or voiceless.
The rationale for choosing VO und UV intervals as rhythmical units is very
similar to that underlying the choice of C- and V-intervals: Speech rhythm
is partly a product of the phonotactic structure of a language (Bolinger,
1981; Dauer, 1983, 1987; Roach, 1983; Ramus et al., 1999; Grabe and Low,
2002). For C- and V- intervals this means that languages using less complex
consonant clusters (e.g. French and Italian) show less durational C- and V-
variability than languages employing a more complex syllable structure
with C-intervals often consisting of consonant strings. A similar situation is
possible for VO- and UV- intervals. Languages with a simple syllable
structure could be typified by single consonant UV- intervals, whilst
languages with a complex syllable structure would have multiple
consonant UV- intervals. For this reason we may detect proportionally
similar differences of C-intervals and UV-interval variability between
languages of different rhythmic class (monitored for example by deltaC,
rPVI and %V). For measures of V- interval variability like deltaV and nPVI the
situation is less clear. It has been argued that both these measures may be
influenced by vocalic reduction (Ramus et al., 1999, for deltaV and Grabe
and Low, 2002, for nPVI). Canonical syllable-timed languages typically do
not reveal vocalic reductions which is why they show less durational V-
interval variability than canonical stress-timed languages in which vowels
in unstressed positions are typically reduced in quality and duration (e.g.
English or German). In VO- interval measurements, however, V- intervals
which are separated by voiced consonants will appear only as long voiced
stretches and full and reduced vowels will in such cases be connected by
the physical continuity of vocal fold vibration in these consonants. It is
unclear whether the vocalic reductions present in some of the components
of the voiced interval would still be salient enough to influence the overall
variability of such intervals.
In Dellwo et al. (2007) we presented the first results of this analytic
approach. We applied the percentage over which speech is vocalic (%V) and
the rate normalised standard deviation of C-interval durations (deltaC) to
voiced and voiceless stretches in speech and calculated the percentage
Volker DELLWO & Adrian FOURCIN 91

over which speech is voiced (%VO) and the standard deviation of unvoiced
intervals (deltaUV). We showed that the stress-timed languages English
and German differ significantly from syllable-timed French and Italian
according to these voice dimensions. The aim of the present research was
to extend this analysis to other datasets and a wider range of measures. We
have now also looked at the variability of VO-intervals by calculating
measures that were previously used to capture the variability of V-
intervals, like deltaV and nPVI. Additionally we have now also looked at rate
normalised variants of the measures that have been shown to correlate
with speech rate (varcoC, varcoV; see Dellwo, 2006; White and Mattys,
2007). In doing this we have addressed the following two questions:
(a) How do rhythmical measurements of UV- and VO-intervals
compare to their C- and V- interval peers in distinguishing languages
of different rhythm classes?
We sought to answer this question by comparing the results of
measurements of durational C- and V- interval characteristics with
the results of measurements of UV- and VO- intervals for the same
speech material. The material used for this part of the study came
from sentences produced in isolation in languages classified as
stress-, syllable- and mora-timed languages. These sentences were
compiled for one of the key studies on speech rhythm measures
(Ramus et al., 1999) and then served subsequently as a basis for a
number of follow up studies (e.g. Rincoff et al., 2005; Toro et al.,
2003).
(b) Can rhythm-class specific characteristics of VO- and UV-intervals
be derived from larger unedited speech recordings automatically?
This second question was addressed by recording and measuring a
larger set of spoken material from 3 speakers in 4 different stress-
and syllable-timed languages using an electrolaryngograph. This
method provided us with direct access to what is ordinarily heard as
“voicing” and gives a more reliable basis for the detection of periodic
vocal fold activity, henceforward 'voice', and gave a robust basis for
an automatic analysis of VO- and UV- patterns.
(c) Is there within-language variability of durational characteristics of
VO- and UV-Intervals?
This point was addressed by analysing 15 speakers of German from
the BonnTempo Corpus (Dellwo et al., 2004).
92 Rhythmic characteristics of voice between and within languages

2. Comparing measurements based on consonantal and vocalic


intervals with measurements based on voiced/voiceless
intervals

In a first step we adopted the measurements developed by Ramus et al.


(1999), %V and deltaC, and the measurements developed by Grabe and Low
(2002), nPVI and rPVI and applied them to voiced and voiceless intervals (VO
and UV intervals). The newly derived measurements are thus called:
• %VO: The percentage of time over which speech is voiced
• deltaUV: The standard deviation of voiceless intervals.
• nPVI-VO: The rate normalised average differences between
consecutive voiced intervals.
• rPVI-UV: The non-rate normalised average differences between
consecutive unvoiced intervals.
In the following section 2.2, we calculate and compare the above measures
along with their original CV peers (%V, deltaC, nPVI, and rPVI) to test
whether they are equally well suited to distinguish rhythm classes.

2.1 Data and measurement procedures


The dataset used for this part of our work is the same as in Ramus et al.’s
(1999) study on rhythmic differences between languages. This was based
on the use of eight languages, two stress-timed languages (English and
Dutch), three syllable-timed languages (French, Italian, and Spanish), one
mora-timed language (Japanese) and two languages for which expert
listeners dispute the classification (Polish and Catalan). The speech
material in this database consists of four speakers per language reading
five sentences (no repetitions). Sentences were normalised for speech rate
by selecting examples of roughly 15 syllables and 18 seconds duration
across all languages. For the present study Polish and Catalan were not
included because their rhythmic class attributes are unclear.
To measure durational characteristics of VO- and UV-intervals each
sentence was analysed automatically using Praat (Boersma, 2001). The
sentence recordings were in one file each and had no pause preceding or
following the signal. In a first pass, fundamental frequency periods were
identified by using Praat's 'PointProcess' method. Any interval between two
consecutive f0 markers larger than 20 ms was labelled 'unvoiced' (UV),
sequences of f0 markers less then 20 ms apart were labelled 'voiced' (VO).
This was done automatically by using Praat's To TextGrid (VUV) function.
Due to the erroneous detection of periodic content during aperiodic parts of
the signal (e.g. during voiceless fricatives) sometimes voiced periods of
Volker DELLWO & Adrian FOURCIN 93

very short duration were mis-labelled by the algorithm. For this reason,
results from the automatic labelling procedure were corrected manually.

2.2 Results and Discussion


The results for all measures specified above are summarised in Figure 1
where the mean and the standard error (+-1) are plotted for the three
rhythm classes (1 = stress-timed, 2 = syllable-timed, 3 = mora-timed) for
each measure. Inferentially we tested the variability between groups for
each measure with a one-way ANOVA using 'rhythm class' as a fixed factor.

Figure 1: Mean values with standard errors (+-1) for the Ramus et al. (1999) measures top and the
Grabe and Low (2002) measures bottom. These measurements are based on the Ramus-corpus.
94 Rhythmic characteristics of voice between and within languages

Differences between individual groups were revealed by Tukey’s post-hoc


test of 'rhythm class’. A comparison between %V and %VO shows that %VO
is on average around 30% higher than %V in each rhythm class; however,
for both measures mora-timed languages reveal the highest values and
stress-timed languages the lowest with syllable-timed languages
somewhere in between. This effect is significant for both %V (F[2, 19]=52.0,
p<.001) and %V0 (F[2, 19]=52, p<.001). Post-hoc analysis of the data reveals
highly significant differences for each group comparison. The
measurements deltaC and deltaUV show a similar pattern.
While the absolute measurements are rather similar between deltaC and
deltaUV for each rhythm class, the general pattern, according to which
stress-timed languages reveal the highest variability followed by syllable-
and then by mora-timed languages, is persistent. The effect is highly
significant for deltaC (F[2, 19]=17.1, p<.001) and significant for deltaUV
(F[2, 19]=3.6, p=.03). This post-hoc analysis shows that all groups differ
highly significantly in the case of deltaC and deltaUV (p for each group
comparison <.005). For the nPVI comparison the pattern is rather different.
While nPVI (V) is highest for stress-timed languages and lowest for mora-
timed Japanese, the nPVI (UV) is highest for syllable timed languages. For
the nPVI (V) the effect is highly significant (F[2, 19]=30.8, p<.001); however,
in the post-hoc analysis the syllable-timed group does not differ from
mora-timed Japanese (p=.45). For the nPVI (VO) the effect is not significant
(F[2, I9]=1.3, p=.28). In the case of rPVI (C) we find that stress-timed
languages have the highest rPVI and mora-timed languages the lowest. This
effect is highly significant (F[2, 19]=15.6, p<001) and post-hoc we found
that all groups differ from each other significantly. Descriptively we can see
in Figure 1 that this trend also exists for rPVI (UV). The ANOVA shows that
there are significant group differences (F[2, 19]=5, p=.008); however, post-
hoc we only find significant differences between groups 1/3 (p=.008) and
2/3 (p=.01).

2.3 Discussion
In summary, the results show that for the dataset used in Ramus et al.
(1999), %VO and deltaUV are equally powerful in distinguishing between the
three rhythm-classes as their CV peers %V and deltaC. This result is in
accordance with the results from our previous study where we found that
stress-timed English and German vary significantly from syllable-timed
French and Italian according to a speech rate normalised version of
deltaUV, the varcoUV (see Dellwo, 2006, and White and Mattys, 2007, for
the concept of the ‘varco’).
In the case of nPVI the data revealed that measurements based on VO- and
UV- intervals show a different pattern from C- and V-interval measures. The
Volker DELLWO & Adrian FOURCIN 95

variability of UV-intervals is higher in syllable-timed languages than in


stress-timed languages, while the V-interval measure is lower in syllable-
as compared to stress-timed languages (which is the expected pattern, see
Grabe and Low, 2002). In the following section we show the results of
processing a number of other measures capturing V- and VO- interval
variability to study whether this effect can be replicated.

3. Studying less constrained data

For our second dataset, speech from two stress-timed (English and
German) and two syllable-timed languages (French and Spanish) was
recorded using an electrolaryngograph (Fourcin and Abberton, 2008). This
technique monitors vocal fold contact conductance during phonation via
two electrodes which are applied to either side of the speaker’s thyroid
cartilage. The current flow over time (Lx waveform) provides a robust
indication of the physical presence or absence of voicing. The same USB
Laryngograph Ltd. laptop data acquisition system was used throughout in
all countries.

3.1 Data gathering and measurement procedures


Three speakers were recorded for each language, reading a set of five
different texts, one longer text (about 400 words in each language) and 4
shorter texts (about 55 words each). All texts were translations into the
languages from common English themes. One of the short texts was the
BonnTempo reading text (Dellwo et al, 2004); the three other short texts
were taken from the EUROM Database (Chan et al., 1995). The longer text is
The story of Arthur the Rat in a version designed to avoid the use of
character voices.
Before recordings took place, speakers were asked to familiarise
themselves with the texts by reading the set in silence. They were then
instructed to read all texts in a way they consider normal in their native
language. Speakers were asked to re-read a sentence in the event that they
realised they had made a mistake or had a major hesitation. Such
incomplete sentences were subsequently deleted from the final recording.
Small hesitations were rare and were not edited. Both the laryngograph
waveform (Lx) and the acoustic signal were recorded, each in one channel
of a stereo file. Speakers were recorded in different places in a quiet
environment.
To analyse the speech content only, reading pauses that typically occur
between intonation phrases had to be removed. This was done by, first,
extracting the intensity contour of the acoustic speech waveform (Praat
function: 'To intensity...') and, second, by identifying all regions in this
96 Rhythmic characteristics of voice between and within languages

intensity contour which are 25dB below the peak intensity and have a
minimum duration of 100 ms. These regions were identified as speech
pauses and automatically labelled using Praat's 'To TextGrid (silences)'
function. Only speech between two pauses (inter-pause interval,
henceforth: IPI) was included in the analysis.
The VO- and UV-intervals were detected automatically in the same way as
in the Ramus-corpus (see above); however, this time the detection of
fundamental period markers was not based on the acoustic speech signal
but on the laryngograph waveform (Lx waveform). This method is more
robust than methods based on acoustic signals and thus erroneous
detection of voicing in aperiodic signals did not occur.
Some of the IPIs consisted only of one VO- and one UV- interval and
standard deviations cannot be calculated for these numbers. We therefore
only included IPIs containing at least 2 VO-intervals and 2 UV-intervals. An
average of 28 (+-7) IPIs were excluded from the analysis because of this
constraint. The total number of IPIs per language were (number of IPIs in
brackets): English (209), French (205), German (475), and Spanish (253). The
average number of VO- and UV-intervals per IPI in each language were:
English (13.3), French (15.0), German (16.1), and Spanish (17.7). The
proportional standard deviation of each of these mean values (coefficient
of variation) was 24.2% (+-4). This implies that the total number of VO- and
UV-intervals was drastically higher in German than in any other language
and the figures confirm this: English (2603), French (2929), German (7075),
and Spanish (4203). Given these figures the possibility arose that the high
number of German intervals may be an artefact of the automatic
processing. For this reason all IPI intervals were checked manually —
whether (a) they were correct IPIs in the sense of containing speech
between two pauses and (b) whether the automatic voiced/voiceless
labelling produced intervals corresponding to the respective regions in the
laryngograph (and acoustic) signal. It was found that the automatic
procedures worked correctly and that German speakers simply produce a
much larger number of VO-/UV-intervals for reading material of comparable
length. A comparison between the individual speakers revealed that this
not a result of a particular individual but that pauses are pretty evenly
distributed across speakers.

3.2 Measurements
In section 2 the data was analysed using the classic rhythm measures %V,
deltaC, and the n and r PVI. In this part of our work we used data that had
not been labelled according to C- and V-interval durations, thus we only
applied the rhythm measures to VO- and UV-intervals.
Volker DELLWO & Adrian FOURCIN 97

Previous research revealed that in particular measures based on the


standard deviation of interval durations (deltaX) correlate strongly with
speech rate (Dellwo, 2006; White and Mattys, 2007). This is also true for the
non-normalised consonantal rPVI (see White and Mattys, 2007, and Dellwo,
2010). This is of special importance for the present analysis since we are
dealing with non-rate-controlled speech. For this reason we have also
included the rate normalised versions of these measures:
• VarcoUV (in analogy to varcoC, Dellwo, 2006): The coefficient of
variation of voiceless interval durations.
• nPVI-UV: A rate normalised version of the rPVl-UV using the same
rate normalisation procedure as presented for the nPVI in Grabe
and Low (2002).
We further included deltaV, the standard deviation of vocalic intervals
which has led to ambiguous results in previous studies (Ramus et al.; 1999,
Ramus, 2003). We wanted to know how such a measure would behave when
it is applied to VO-intervals. So we added the measure:
• delta VO (in analogy to Ramus et al., 1999): The standard deviation
of voiced interval durations.
In addition we added the rate normalised version of this measure:
• VarcoVO (in analogy to varcoV, White and Mattys, 2007): the
coefficient of variation of voiced interval durations.

3.3 Results and Discussion


The results for all rhythm measures (%VO, deltaUV, varcoUV, deltaVO,
varcoVO, nPVI-VO, rPVI-UV and rPVI-VO) are plotted in Figure 2 (mean
values with standard errors [+-1] plotted over stress-timed [1] and
syllable-timed languages [2]). The between group variability was tested
using an independent samples t-test, the results of which can be viewed in
Table 1.
98 Rhythmic characteristics of voice between and within languages

measure t(1140) P

%VO -18.85 <0.001

deltaUV 7.15 <0.001

varcoUV -0.85 0.4

deltaVO -15.1 <0.001

varcoVO -8.43 <0.001

nPVI-VO -5.81 <0.001

rPVI-UV 6.13 <0.001

nPVI-UV 0.39 0.7

Table 1: Results for the independent samples t-test with 'rhythm class' as a grouping variable
(group 1: stress-timed, group 2: syllable-timed). Column 1 contains the measure names, column 2
the t-value for 1140 degrees of freedom and column 3 the probability (p).

Results for %VO and deltaUV replicate the patterns found in the Ramus-
corpus (see above). %VO is higher for syllable-timed than for stress-timed
languages and deltaUV is lower for syllable- than for stress-timed
languages. So the classic pattern of stress-timed languages being
proportionally less vocalic but more variable in their consonantal interval
durations also holds for their voicing: stress timed languages are
proportionately less voiced and their unvoiced periods are more variable
than in syllable timed languages.
Volker DELLWO & Adrian FOURCIN 99

Figure 2: Measurements from the LX-corpus showing mean values and (+- 1) standard errors for
each rhythm class (1 = stress-timed, 2 = syllable-timed).

For the voiced interval variability measure, stress-timed languages vary


significantly from syllable-timed, however, the pattern is reversed in regard
to vocalic variability: while vocalic variability is typically higher in stress-
timed languages the variability of voiced intervals is lower (compared to
syllable-timed languages). All vocalic variability measures, whether they
are rate normalised (nPVI-VO, varcoVO) or not (deltaVO) show evidence for
being more variable in syllable-timed languages. This finding is interesting
100 Rhythmic characteristics of voice between and within languages

and cannot easily be explained at the current stage, especially since we


would rather assume the opposite to happen. In the VO-UV segmentation
all voiced consonantal content is assimilated to vocalic portions in speech.
Now, vocalic intervals in speech are more variable in stress- than in
syllable-timed languages and so are consonantal-intervals (see Ramus et
al., 1999; Grabe and Low, 2002, and the results under section 2 of this
paper). By summing two intervals that are more variable we would not
expect to produce new intervals which are less variable. A possible reason
for this could be that by adding the variability of C- and V- intervals
together the variability in resulting voiced intervals is cancelled out. This,
however, can only happen when longer intervals are systematically
combined with shorter intervals, to make the overall duration less variable
and such an organisation could only be made on a phonotactic level.

Figure 3: Voicing rate measured in voiced and unvoiced intervals per second. The graph plots the
mean values with standard error (+-1) for the languages German (G), English (E), French (F), and
Spanish (S).

Why would this happen? From a production point of view it seems


conceivable that the durations for turning voicing on and off are easier to
control for the speaker when they happen at regular intervals. So possibly
the phonotactics of the language are influenced by such a desire to keep
voiced interval durations at equal durations. We have found tentatively in
other cross language work (Fourcin and Abberton, 2008; Fourcin, 2010) that
voice produced in reading representative texts at a comfortable rate may
be subject to powerful temporal constraints that tend to give an equal
balance between the total time speech is voiced and the total time
allocated to voiceless consonants together with silences. This is to say that
Volker DELLWO & Adrian FOURCIN 101

there is evidence that voicing patterns have the tendency to be similarly


organised across languages. Such an organisation may either arise of
temporal articulatory constraints or simply because keeping a certain
durational voiced:unvoiced ratio provides a more effective way of
articulating.
If the argument was true that higher rates result in a lower variability of VO
and UV intervals we should find that at languages with less variable VO-UV
intervals should also reveal a higher rate of these intervals. We have tested
this and plotted the results in Figure 3. The figure shows that rate of voiced
and unvoiced intervals per second for the languages German, English,
French and Spanish (mean and standard error). The results reveal that
voicing rate varies strongly between languages probably in a comparable
way to rate variability of consonantal and vocalic intervals (Dellwo et al.,
2006; White and Mattys, 2007; Dellwo, 2010). It can be seen that stress-
timed English and German have generally a lower rate of voiced and
voiceless intervals than syllable-timed French and Spanish. This effect is
highly significant (ANOVA: language * rate: F[3,1141]=78.9, p<.001). A
Tukey's post-hoc test reveals that there are no significant differences
between the two syllable-timed languages (p=0.7) but highly significant
difference between any other group comparison. In summary, it is possible
that the higher variability of VO and UV intervals found in syllable-timed
languages is an effect of the higher rates at which theses languages are
articulated.

4. Within-language variability of voicing

By now there is quite a wide body of evidence that temporal characteristics


of consonantal and/or vocalic segments can vary within a language, for
example as a function of speaker (Dellwo and Koreman, 2008; Dellwo,
Ramyead and Dancovicova, 2009; Wiget et al., 2010; Yoon, 2010; Arvaniti,
2012). Wiget et al. (2010) found that the percentage over which speech is
vocalic can vary as much between speakers of the same language as it
varies between languages of different rhythmic classes. In the present
section of this paper we explored whether speakers also vary within a
language as a function of temporal characteristics of their voice. The data
analysed in sections 2 and 3 of the present paper are not very suitable for
this analysis since the number of speakers were low. In 2 we only had 4
speakers per language producing 5 sentence and in 3 speakers produced
more speech but there were only 3 speakers per language and it is unclear
what the probability is that these three speakers are very similar in respect
to the temporal characteristics of speech. In summary, we want to look at a
database that contains more speakers For this reason we chose to look at
the BonnTempo Corpus (Dellwo et al., 2004) which offers 15 speakers for
German.
102 Rhythmic characteristics of voice between and within languages

Figure 4: %VO (top) and VarcoVO (bottom) as a function of 15 different speakers in the BonnTempo
Corpus (mean values and standard-errors).
Volker DELLWO & Adrian FOURCIN 103

4.1 Data and measurement procedures


15 speakers from the BonnTempo Corpus (Dellwo et al., 2004) were chosen
for the analysis. Speakers read a German text under 5 different intended
tempo conditions (very slow, slow, normal, fast, very fast). As we are only
interested in normal speech at present we analysed the normally produced
version of the text only. Speakers read a small text including seven
sentences.
For each sentence the percentage over which speech is voiced (%VO) and
the standard deviation of voiced interval durations (DeltaVO) was
calculated. As speech rate may have the same influences on the standard
deviation of voiced intervals as on comparable intervals (Dellwo, 2006) we
calculated the coefficient of variation instead of the raw standard deviation
(VarcoVO).

4.2 Results and Discussion


Figure 4 shows the mean and standard error for %VO (top graph) and
VarcoVO (bottom graph). It is apparent from the graphs that speakers vary
to a great degree in both variables. For %VO this effect is highly significant
(ANOVA: F[14,103]=2.77; p=0.002), for VarcoVO the effect is significant
(ANOVA: F[14,103]=1.88; p=0.04). This means that there is not only
significant variability of voicing intervals between languages but also within
languages as a factor of speaker.
The magnitude of the within language variability is surprising. Speaker ‘Do’
for example has 80% and speaker ‘Vo’ 63% of proportional voicing. In
absolute terms this difference is higher than the difference obtained
between stress- and syllable-timed languages in section 2 and nearly as
high at the one obtained in section 3. So all in all it can be said that
variability as a function of speaker is comparable in magnitude to the
variability as a function of language. This effect is accordance with the type
of variability between speaker that has been found for consonantal and
vocalic durational characteristics by Wiged et al. (2010).

5. General discussion

In the present paper we presented results from three analyses. In section 2


we showed that languages of different rhythmic characteristics (stress-
timed and syllable-timed, for example) vary in the way their voiced intervals
are organised. While we find more regularly distributed patterns of voicing
in syllable timed languages (patterns of lower durational variability) these
patterns are more irregular in stress-timed languages. As the data in
section 2 was very controlled (5 sentences of about 15 syllables per
speaker) we studied less contrained data in section 3 (longer texts from
104 Rhythmic characteristics of voice between and within languages

different genres). We found that we could replicate the general results from
section 2 that the voicing patterns in stress-timed languages are more
variable than in syllable-timed languages. In section 4 we looked at the
durational variability of voicing patterns within languages and found
considerable variability between speakers of German taken from the
BonnTempo corpus. So in summary our research showed that some
languages can be robustly distinguished from others (e.g. stress- and
syllable-timed languages) simply on the basis of physically defined voiced
and unvoiced intervals and this is also true for some of the speakers within
the languages. In the following we will discuss the particular advantages
and more general implication of this segmentation procedure.
The methodological advantage of the present method is that rhythmic
classification of languages can be carried out with precision and relatively
little effort. Manual labelling of consonantal and vocalic intervals is labour
intensive and because of the considerable level of phonological knowledge
involved in this process (e.g. is a retroflex approximant vocalic or
consonantal?) automatic procedures have so far given unsatisfactory
results. Such procedures would require specific training for individual
languages when applied cross linguistically. Also, because of the level of
phonological knowledge involved in the labelling of vocalic and consonantal
intervals, between-labeller disagreement can be significant This
disagreement is even stronger across different languages or when
accentual pronunciation variability occurs. Detecting voiced and voiceless
parts of the signal is a much easier and more reliable method and it is
applicable on a cross language basis with fewer assumptions. To obtain
additional precision obtaining the 'voice'-data, technology monitoring vocal
fold activity directly can be used (e.g. laryngograph).
Since fewer assumptions are required to distinguish stress- and syllable-
timed languages on the basis of voiced and voiceless cues this may also
have implications in regard to our understanding of both how adults and
indeed infants distinguish between rhythm-classes (Ramus et al., 1999).
After all, infants receive most of their initial familiarization with speech
acoustics in the mother's womb where they are exposed to a highly low
pass filtered signal (larynx to otic capsule vibrotactile transmission) and no
visual cues are available. In such an environment voice cues are much more
salient than any other acoustic feature of speech. For this reason we
propose the hypothesis that infants may prefer voice variability cues over
consonantal and vocalic interval variability cues to distinguish between
speech rhythm classes. And we can probably take another step. Since we
saw that voicing characteristics vary between speakers of the same
language it might be well possible that such characteristics are also salient
to the infant at an early stage and that for example the ability to distinguish
the mother from other women or the father from other men is based on
Volker DELLWO & Adrian FOURCIN 105

exactly these variables. It would be interesting to test these hypothesis in


perceptual experiments with infants.
Voice, in relation to laryngeal vibration, is one of the most dominant
perceptual components of speech; thus its durational characteristics may
make a substantial contribution to the perceptually salient temporal
organisation of speech, i.e. to our impression of rhythm in speech. The
temporally structured quasi periodic nature of vocal fold vibration
distinguishes voice from other sounds in the foetal environment and it is
beginning to appear that our auditory system employs neuro-temporal
mechanisms that are especially suited to voice perception (Sayles and
Winter, 2008 — using a human related animal model). These mechanisms
exist in the adult and their low frequency importance is enhanced by
cranial bone conduction and they are likely to dominate auditory
processing in the foetus. Normal cochlear place analysis is not available to
the foetus, since the amniotic fluid, that fills the middle ear and external
canal, occludes the round window and foetal hearing is, in consequence,
physically only able to provide percepts of pitch and loudness arising from
the operation of these neuro-temporal mechanisms. Although neural
synchrony with acoustic input is detectable up to 5kHz (e.g. Johnson, 1980)
these mechanisms operate best only over the voice range of frequencies
(see, for example, the mistuned harmonic experiments by Hartman et al,
1990).
These simple facts contribute to an explanation for the early development
of infant prosodic skills. Neuro-temporal processing effectively focusses
auditory attention on the vocal fold / voice component of speech. This
selective attention is of importance not only to the perception but also to
the production of voice. Vocal fold vibration is likely to be given especial
importance because it is perceptually salient. To the extent that this is
true, we may expect that the use of laryngeal timing information will
provide the most robust basis for both the perceptual and computational
discrimination of language rhythmic timing differences.

Acknowledgements

We wish to thank Franck Ramus for sharing the speech data used in Ramus
et al. (1999). We further wish to thank Sandra Schwab, Evelyn Abberton and
Patti Adank for helpful comment on draft versions of this paper. Further
thanks goes to one anonymous reviewer of the paper for TRANEL.
106 Rhythmic characteristics of voice between and within languages

Bibliography

Abercrombie, D. (1967): Elements of General Phonetics. Edinburgh (Edinburgh University Press).


Arvaniti, A. (2012): The usefulness of metrics in the quantification of speech rhythm. Journal of
Phonetics, 40, 351-373.
Boersma, P. (2001): Praat, a system for doing phonetics by computer. Glot International, 5 (9/10),
341-345.
Bolinger, D.L. (1981): Two kinds of vowels, two kinds of rhythm. Bloomington/Indiana (Indiana
University Linguistics Club).
Chan, D., Fourcin, A., Gibbon, D., Granstrom, B., Huckvale, M., Kokkinakis, G., Kvale, K., Lamel, L.,
Lindberg, B., Moreno, A., Mouropoulos Senia, F., Trancoso, I., Veld, C., Zeiliger, J. (1995):
EUROM Spoken Language Resource for the EU. Proceedings of Eurospeech'95, 867-870.
Dauer, R.M. (1983): Stress-timing and syllable-timing reanalyzed. Journal of Phonetics, 11, 51-69.
— (1987): Phonetic and phonological components of language rhythm. Proceedings of the 11th
ICPhS, 447-450.
Dellwo, V. (2006): Rhythm and speech rate: A variation coefficient for ΔC. In: Pawel Karnowski and
Imre Syigeti (eds.), Language and Language-processing. Proceedings of the 38th Linguistic
Colloquium. Frankfurt am Main (Peter Lang), 231-241.
— (2010): Influences of speech rate on acoustic correlates of speech rhythm: An experimental
investigation based on acoustic and perceptual evidence." PhD thesis, Bonn University,
Germany (http://hss.ulb.uni-bonn.de:90/2010/2003/2003.htm).
Dellwo, V., Fourcin A, Abberton E. (2007): Rhythmical classification of languages based on voice
parameters. Proceedings of the International Congress of Phonetic Sciences (ICPhS), 1129-
1132.
Dellwo, V. and Koreman, J. (2008): How speaker idiosyncratic is measurable speech rhythm?
Abstract collection of IAFPA 2008, Lausanne, Switzerland.
Dellwo, V., Ramyead, S., and Dancovicova, J. (2009): The influence of voice disguise on temporal
characteristics of speech. Abstract collection of IAFPA 2009, Cambridge, UK.
Dellwo, V. and Wagner, P. (2003): Relationships between speech rhythm and rate. Proceedings of
the 15th ICPhS, 471-474.
Dellwo, V. Aschenberner, B., Dancovicova, J. and Wagner, P. (2004): The BonnTempo-Corpus and
Tools: A database for the combined study of speech rhythm and rate. Electronic
Proceedings of the 8th ICSLP.
Fourcin A, Abberton, E. (2008): Hearing and phonetic criteria in voice measurement: Clinical
applications. Logopedics Phoniatrics Vocology 33, 35-48.
Fourcin, A. and Dellwo, V. (2009): Rhythmic classification of languages based on voice timing.
Speech, Hearing and Phonetic Sciences, UCL: London, UK
Fourcin, A (2010): A note on voice timing and the evolution of connected speech, Logopedics
Phoniatrics Vocology, 35, (2) , 74-80.
Grabe, E, Low L, (2002): Durational Variability in Speech and the Rhythm Class Hypothesis.– In:
Carlos Gussenhoven/Natasha Warner (eds.), Papers in Laboratory Phonology 7, Berlin
(Mouton de Gruyter), 515-546.
Hartmann, W. (1990): Hearing a mistuned harmonic in an otherwise periodic complex tone. Journal
of the Acoustical Society of America, 88, (4), 1712-1724.
James, A. L. (1929): Historical Introduction to French Phonetics. London (ULP).
Volker DELLWO & Adrian FOURCIN 107

Johnson, D. (1980): The relationship between spike rate and synchrony in responses of auditory-
nerve fibers to single tones. Journal of the Acoustical Society of America, 68 (4), 1115-1122.
Nazzi, T., Ramus, F. (2003): Perception and acquisition of linguistic rhythm by infants. Speech
Communication, 41, 233–243.
Nazzi, T., Bertoncini, J., and Mehler, J. (1998): Language discrimination by newborns: Toward an
understanding of the role of rhythm. Experimental Psychology, 24, (3), 756-766.
Pike, K. (1945): Intonation of American English. Ann Arbor (University of Michigan Press).
Ramus, F. (2002): Acoustic correlates of linguistic rhythm: Perspectives. Proceedings of Speech
Prosody, 11-13.
Ramus, F., Hauser, M.D., Miller, C, Morris, D., and Mehler, J. (2000): Language discrimination by
human newborns and cotton-top tamarin monkeys. Science, 288, 349-351.
Ramus, F., Nespor, M., and Mehler, J. (1999): Correlates of linguistic rhythm in the speech signal.
Cognition, 73, 265-292.
Ramus, F. and Mehler, J. (1999): Language identification based on suprasegmental cues: A study
based on resynthesis. Journal of the Acoustical Society of America, 105, (1), 512-521.
Rincoff, R., Hauser, M., Tsao, F., Spaepen, G., Ramus, F., and Mehler, J. (2005): The role of speech
rhythm in languages discrimination: further tests with a non-human primate.
Developmental Science, 8, (1), 26-35.
Roach, P. (1982): On the distinction between 'stress-timed' and 'syllable-timed' languages," In D.
Crystal (ed.): Linguistic controversies, London (Edward Arnold), 73-79.
Sayles, M., and Winter, I. (in press): Ambiguous Pitch and the Temporal Representation of
Inharmonic Iterated Rippled Noise in the Ventral Cochlear Nucleus. Journal of
Neuroscience.
Toro, J.M., Trobalon, J.B., and Sebastian-Galles, N. (2003): The use of prosodic cues in language
discrimination tasks by rats. Animal Cognition, 6, (2), 131-136.
White, L. and Mattys, S. (2007): Calibrating rhythm: First language and second language studies. J.
Phonetics, 35, (4), 501-522.
Wiget, L., White, L., Schuppler, B., Grenon, I., Rauch, O., and Mattys, S. L. (2010): How stable are
acoustic metrics of contrastive speech rhythm. J. Acoust. Soc. Am., 127, (3) , 1559-1569.
Yoon, T. J. (2010): Capturing inter-speaker invariance using statistical measures of speech
rhythm. Electronic proceedings of Speech Prosody, Chicago/IL, USA.
Travaux neuchâtelois de linguistique, 2013, 59, 109-126

Sprachrhythmus bei bilingualen Sprechern

Stephan SCHMID und Volker DELLWO


Phonetisches Laboratorium der Universität Zürich

Il presente contributo analizza alcune caratteristiche temporali di due lingue


appartenenti a classi ritmiche diverse: l'italiano (isosillabico) e il tedesco
(isoaccentuale). In particolare, si esaminano tre gruppi di parlanti (nativi, non-nativi e
bilingui), formulando per i parlanti bilingui due ipotesi contrastanti: i) essi mostrano in
tutte e due le lingue un ritmo di tipo 'nativo'; ii) essi parlano con un ritmo 'intermedio'
che riflette in ciascuna lingua le caratteristiche dell'altra lingua. I risultati emersi da
tre metriche diverse (velocità di eloquio, variabilità delle durate di intervalli vocalici e
percentuale degli intervalli sonori) indicano che i bilingui sembrano in effetti
collocarsi tra i parlanti nativi e quelli non-nativi, ovvero in una posizione intermedia
dello spazio ritmico.

1. Einleitung

Die phonetische Forschung zum Sprachrhythmus war in den letzten zehn


Jahren zunächst von der so genannten 'Hypothese der Rhythmusklassen'
geprägt, wonach sich Sprachen anhand von bestimmten akustischen
'Rhythmusmassen' voneinander unterscheiden lassen. Eine Erweiterung
der Fragestellung erfolgte dann durch Untersuchungen, die anhand von
solchen Zeitbereichsmassen Unterschiede im Sprachrhythmus zwischen
der Muttersprache und einer Fremdsprache bei den gleichen Sprechern
analysierten. Noch wenig erforscht wurde hingegen der Sprachrhythmus
von bilingualen Sprechern, die seit ihrer Kindheit mit zwei Sprachen
aufgewachsen sind.
Diesen Forschungsgegenstand untersuchen wir im vorliegenden Beitrag am
Beispiel von bilingualen Sprechern des Deutschen und des Italienischen,
die mit monolingualen Sprechern derselben Sprachen verglichen werden.
Dabei erweitern wir die Perspektive von den Rhythmusmassen auf den
Zeitbereich des Sprechens insgesamt, indem wir z.B. auch die Sprech-
geschwindigkeit in Betracht ziehen. Für die bilingualen Sprecher werden
zwei unterschiedliche Hypothesen einander gegenübergestellt: (1)
entweder ist deren Sprachrhythmus vergleichbar mit demjenigen von
monolingualen Sprechern der jeweiligen Sprachen, oder (2) ihr Sprach-
rhythmus nähert sich in beiden Sprachen jeweils leicht dem Rhythmus der
anderen Sprache an.
Der nächste Teil dieses Beitrags fasst kurz den aktuellen Forschungsstand
zum Sprachrhythmus bei Muttersprachlern, Sprachlernern und bilingualen
Sprechern zusammen; dabei werden inbesondere einschlägige Resultate
110 Sprachrhythmus bei bilingualen Sprechern

für das Deutsche und das Italienische resümiert. Anschliessend stellen wir
die Daten und das Analyseverfahren unserer eigenen empirischen Unter-
suchung vor, um schliesslich im vierten und fünften Abschnitt die für die
beiden formulierten Hypothesen relevanten Resultate zu interpretieren1.

2. Sprachrhythmus

2.1 Sprachrythmus und Rhythmusmasse


In den Achtziger Jahren des letzten Jahrhunderts wurde die von Pike (1945)
und Abercrombie (1967) vertretene 'Isochronie-Hypothese' durch eine
Reihe von instrumentalphonetischen Untersuchungen falsifiziert. Man
stellte fest, dass sowohl in 'silbenzählenden' als auch in 'akzentzählenden'
Sprachen die Dauern der Silben von der Anzahl der Segmente und die
Dauern der Akzentgruppen von der Anzahl der Silben abhängen, weshalb
'Isochronie' – im Sinne einer gleichmässigen Dauer von Silben und
Akzentgruppen – in den jeweiligen Sprachen kaum vorhanden ist. Als Folge
dieses Befundes wurde u.a. vorgeschlagen, den Sprachrhythmus nicht im
akustischen Signal zu suchen, sondern ihn eher als eine abstrakte
Eigenschaft von Sprachen zu verstehen, die als Epiphänomen aus
phonologischen Bedingungen wie z.B. der Silbenstruktur oder der
Reduktion unbetonter Vokale entsteht (vgl. den Forschungsüberblick in
Auer & Uhmann, 1988).
Interessanterweise führte gerade diese phonologische Reinterpretation
des Sprachrhythmus zu einer Rückkehr zur Instrumentalphonetik, als
Ramus et al. (1999) drei Rhythmusmasse vorschlugen, die als akustische
Korrelate der Silbenstruktur und der Vokalreduktion zu verstehen sind: %V
(der prozentuale Anteil vokalischer Intervalle an einer Äusserung), ∆V (die
Standardabweichung der Dauer von vokalischen Intervallen), ∆C (die
Standardabweichung der Dauer von konsonantischen Intervallen). Wie aus
der Bezeichnung dieser Rhythmusmasse hervorgeht, misst man also nicht
mehr Silben und Akzentgruppen, sondern Gruppen von aufeinander
folgenden Vokalen und Konsonanten – unabhängig von deren Silben-
zugehörigkeit. So haben verschiedene Untersuchungen gezeigt, dass
'akzentzählende' Sprachen (d.h. Sprachen mit komplexer Silbenstruktur
und Reduktion von unbetonten Vokalen) eher niedrige %V-Werte und hohe
∆V- und ∆C-Werte aufweisen, während für 'silbenzählende' Sprachen (d.h.

1
Erste Ergebnisse dieses Forschungsprojekts wurden an internationalen Tagungen in Neapel
(Mai 2011) und Rom (Januar 2012) vorgestellt. Zwei Personen waren wesentlich an der
Entstehung der Studie beteiligt: Laura Tramutoli hat die Versuchspersonen kontaktiert und
aufgenommen und einen Teil der der italienischen Sätze segmentiert; This Müller nahm eine
erste Segmentierung der deutschen Sätze vor. Zu Dank verpflichtet sind wir zudem zwei
anonymen Gutachtern für wertvolle Hinweise und Verbesserungsvorschläge.
Stephan SCHMID & Volker DELLWO 111

für Sprachen mit einfacher Silbenstruktur und ohne Reduktion von


unbetonten Vokalen) eher das Gegenteil zutrifft.
Die ursprüngliche 'Hypothese der Rhythmusklassen' wurde
verschiedentlich kritisiert und z.T. auch modifiziert, indem alternative
Rhythmusmasse vorgeschlagen wurden. So haben etwa Grabe & Low (2002)
das Mass %V als Korrelat des Sprachrhythmus abgelehnt und stattdessen
den Pairwise Variability Index (PVI) eingeführt, welcher auf der
durchschnittlichen Differenz der Dauern von aufeinander folgenden Vokal-
und Konsonantenintervallen beruht. Ausserdem stellte Dellwo (2006) fest,
dass inbesondere die Dauer von Konsonantenintervallen durch die
Sprechgeschwindigkeit beinflusst wird, weshalb er die Standardab-
weichung ∆C mit einem normalisierten Rhythmusmass, dem Variationsko-
effizienten VarcoC, ergänzte. Eine weitere Möglichkeit besteht darin,
Zeitbereichsmasse nicht für vokalische und konsonantische Intervalle,
sondern für stimmhafte und stimmlose Intervalle zu berechnen (Dellwo et
al., 2007).

2.2 Sprachrhythmus im Deutschen und Italienischen


Für das hier untersuchte Phänomen des Sprachrhythmus bei bilingualen
Sprechern eignen sich das Deutsche und das Italienische insofern, als man
diese beiden Sprachen traditionell zwei verschiedenen Rhythmusklassen
zugeordnet hat.
Das Italienische wird seit Bertinetto (1977) als 'silbenzählend' beschrieben
und bildet auch in der Rhythmus-Topologie von Ramus et al. (1999: 273)
eine gemeinsame Gruppe mit drei anderen romanischen Sprachen, nämlich
dem Französischen, Spanischen und Katalanischen. Deutsch gehört nicht
zu den acht von Ramus et al. (1999) untersuchten Sprachen.
Hingegen wird das Deutsche in der PVI-Studie von Grabe & Low (2002)
berücksichtigt, in welcher umgekehrt das Italienische fehlt. Aufgrund der
Dauervariabilität von vokalischen Intervallen gehört hier das Deutsche
zusammen mit dem Niederländischen und Englischen zu einer Rhythmus-
klasse, die sich deutlich von Sprachen wie dem Französischen, Spanischen
und Japanischen unterscheidet (vgl. Grabe & Low, 2002: 528).
In der sprachvergleichenden Studie von Mairano & Romano (2011) werden
schliesslich beide Sprachen sowohl anhand der Rhythmusmasse %V, ∆C
und ∆V als auch anhand des PVI untersucht, wobei sich die relative Position
des Deutschen in beiden Rhythmus-Topologien deutlich von derjenigen des
Italienischen entfernt.
112 Sprachrhythmus bei bilingualen Sprechern

2.3 Sprachrhythmus in einer Zweitsprache


Dass die Prosodie einen wesentlichen Anteil am 'Akzent' in einer Fremd-
sprache ausmacht, wurde z.B. von Missaglia (1999) am Beispiel von italie-
nischsprachigen Lernern des Deutschen aufgezeigt. Konkrete Evidenz für
non-nativen Rhythmus im Deutschen erbrachte Gut (2003: 2439) anhand
der Dauerverhältnisse zwischen aufeinander folgenden betonten und
unbetonten Silben: diese sind bei deutschen Sprechern signifikant höher
als bei italienischen Lernern. In einer korpusbasierten Studie zeigte Gut
(2009: 186) zudem, dass das Deutsche von Italienern im Vergleich zu den
Muttersprachlern mehr Silben mit nicht-reduzierten Vokalen, dafür aber
signifikant weniger Silben mit reduzierten oder getilgten Vokalen aufweist.
Ein solcher Einfluss von nativem Sprachrhythmus auf eine Zweitsprache
wurde verschiedentlich nachgewiesen, insbesondere von 'silben-
zählendem' Spanisch oder Französisch auf das 'akzentzählende' Englisch
(White & Mattys, 2007; Tortel & Hirst, 2010). Ein weiteres allgemeines
Phänomen von Lernersprache betrifft schliesslich die im Vergleich zu
Muttersprachlern geringere Sprechgeschwindigkeit (vgl. z.B. Munro &
Derwing, 2001; White & Mattys, 2007; Dellwo et al., 2009), die sich leicht
mit der niedrigeren Sprachkompetenz der L2-Sprecher erklären lässt.

2.4 Sprachrhythmus bei bilingualen Sprechern


Wie in der Einleitung erwähnt, lassen sich für den Sprachrhythmus bei
Bilingualen zwei unterschiedliche Hypothesen formulieren. Für
'ausgeglichene' Zweisprachige wäre anzunehmen, dass sie in beiden
Sprachen vergleichbare Rhythmusmasse wie monolinguale Sprecher auf-
weisen (Hypothese 1). So untersuchte Galloway (2007: 79) die vokalischen
und konsonantischen PVI von bilingualen Sprechern des Französischen und
Schweizerdeutschen in beiden Sprachen und kam dabei zu folgendem
Schluss: "it is possible for proficient bilinguals to achieve monolingual-like
rhythm"; allerdings fügt die Autorin zwei relativierende Aussagen an,
nämlich "rhythm can fall somewhere in between" und "individual variation
occurs" (Galloway, 2007: 82). Zu ähnlichen Ergebnissen war bereits
Witworth (2002: 202) in ihrer Studie zu zweisprachigen Familien
(Deutsch/Englisch) gekommen: i) "the rhythmic patterns of bilingual are not
necessarily identical to the monolingual patterns of the respective
languages", ii) "the difference between L2 and bilingual speech is one of
degree of attainment".
Aufgrund der Befunde der Zweitspracherwerbsforschung wäre es in der Tat
naheliegend, auch bei Bilingualen eine Art von rhythmischer Interferenz zu
vermuten, so dass ihre Sprache in einem Bereich zwischen nativem und
non-nativem Rhythmus anzusiedeln wäre (Hypothese 2). Drei Studien zu
spanisch-englischen Bilingualen in Nordamerika haben in dieser Hinsicht
Stephan SCHMID & Volker DELLWO 113

interessante Ergebnisse geliefert. So zeigte Carter (2005) für mexikanische


Einwanderer in North Carolina, dass die erste Generation einen deutlich
non-nativen Sprachrhythmus in der Zweitsprache Englisch aufweist.
Einwanderer der zweiten Generation sprechen sowohl im Englischen als
auch im Spanischen mit einem annähernd 'nativen' Rhythmus, wobei sich
die PVI ihrer Silbenkerne allerdings in beiden Sprachen leicht in Richtung
der anderen Sprache bewegen. Die Studie von Bunta & Ingram (2007)
untersuchte gleich drei verschiedene Altersgruppen (kleine Kinder,
grössere Kinder, Erwachsene) und kam anhand der vokalischen PVI zum
Schluss, dass sich im Spracherwerb eine kontinuierliche Entwicklung von
einem 'Zwischenrhythmus' (Hypothese 2) zu zwei unterschiedlichen,
nativen Sprachrhythmen (Hypothese 1) abzeichnet. Schliesslich stellten
Harris & Gries (2011) in einem Vergleich zwischen mexikanischem Spanisch
und kalifornischem Chicano-Spanisch fest, dass die Standardabwei-
chungen der Vokaldauern bei bilingualen Sprechern grösser sind als die-
jenigen von monolingualen Sprechern (interessanterweise gilt dies hin-
gegen nicht für die vokalischen PVI).

3. Die empirische Untersuchung

Zur Überprüfung der in der Einleitung aufgestellten Hypothesen haben wir


am Phonetischen Laboratorium der Universität Zürich ein Korpus mit dem
Namen Bilingual Corpus (BiCor) erstellt. Dieses Korpus besteht aus
Aufnahmen von deutschen und italienischen Sätzen, die von drei unter-
schiedlichen Sprechergruppen gelesen wurden. In der Folge stellen wir die
Sprechergruppen (3.1), das verwendete Sprachmaterial und das Analyse-
verfahren (3.2) vor.

3.1 Die drei Sprechergruppen


15 Versuchspersonen im Alter zwischen 20 und 30 Jahren wurden unter
Studierenden der Universität Zürich rekrutiert.
Bei der ersten Sprechergruppe handelt es sich um fünf Italienischsprachige
mit Schweizer Staatsangehörigkeit, die alle im Kanton Tessin geboren sind
und dort auf Italienisch die Grundschulen und das Gymnasium besucht
haben. Ingesamt haben sie während 7 Jahren Deutschunterricht erhalten.
Die zweite Gruppe besteht aus fünf Deutschschweizern mit unter-
schiedlichen Sprachkompetenzen des Italienischen. Drei Studierende sind
Anfänger, die aus persönlichem Interesse Italienisch lernen; bei den
anderen beiden handelt es sich um Studierende der Romanistik, deren
Italienischkenntnisse bereits fortgeschritten sind.
In der Gruppe der Bilingualen befinden sich zunächst vier Studierende, die
in der Deutschschweiz aufgewachsen sind und dort auch die Schulen
114 Sprachrhythmus bei bilingualen Sprechern

besucht haben; sie sind aber alle italienischer Abstammung und haben
zumindest einen Elternteil, der aus Italien eingewandert ist. Die fünfte
bilinguale Sprecherin weist hingegen ein 'umgekehrtes' Sprachrepertoire
auf, da sie im Tessin die Schulen besucht hat und zuhause mit ihrer Mutter
Deutsch spricht.

3.2 Sprachmaterial, Aufnahmeprozedere und akustische Analyse


Alle 15 Sprecher wurden im Phonetischen Laboratorium aufgenommen, wo
sie u.a. zehn deutsche sowie zehn italienische Sätze lasen, die im Anhang
aufgeführt werden. Die italienischen Sätze stammen aus dem Korpus von
Ramus et al. (1999) und wurden vom Erstautor ins Deutsche übersetzt.
Somit ergibt sich ein Korpus von 300 Sätzen: 3 Gruppen x 5 Sprecher x 10
Sätze x 2 Sprachen.
Die Sprecher wurden zunächst in ihrer Muttersprache und dann in der
Fremdsprache aufgenommen; bei den bilingualen Sprechern wurde die
Reihenfolge nicht kontrolliert. Die Aufnahmeleiterin war eine Italienerin, die
mit den Italienischsprachigen und den Bilingualen auf Italienisch, mit den
Deutschsprachigen auf Englisch kommunizierte. Alle Sprecher wurden
jeweils in einer einzigen Session aufgenommen.
Die Audio-Dateien wurden mit dem Computerprogramm Praat (Boersma &
Weenink, 2011) einer akustischen Analyse unterzogen. Auf einem ersten
TextGrid wurde das Sprachsignal von Hand in einzelne Laute segmentiert,
wobei jedem Vokal oder Konsonant ein SAMPA-Symbol zugeordnet wurde2.
Ausgehend von dieser manuellen Segmentierung wurden für unsere
Analyse in einem automatisierten Verfahren zwei weitere TextGrids
erzeugt: i) eine Ebene cv-intervals, die jedes konsonantische oder
vokalische Intervall einem Kategoriensymbol c oder v zuordnet; ii) eine
Ebene voicing, welche das Sprachsignal automatisch in stimmhafte und
stimmlose Intervalle aufteilt.
In einem zweiten automatisierten Schritt wurde schliesslich eine Reihe von
Zeitbereichsparametern – inbesondere die Sprechgeschwindigkeit und ver-
schiedene Rhythmusmasse – berechnet, die als Grundlage für die
folgenden Analysen dienen 3 . Die Sprechgeschwindigkeit (gemessen in
Silben pro Sekunde) fällt in unserem Fall mit der Artiku-
lationsgeschwindigkeit zusammen, da die analysierten Intonationsphrasen
– einfache Sätze ohne Nebensätze – keine Pausen enthalten (vgl. die

2
SAMPA ("Speech Assessment Methods Phonetic Alphabet") ist ein IPA-basiertes
phonetisches Alphabet, welches nur ASCII-Zeichen verwendet
(http://www.phon.ucl.ac.uk/home/sampa/).
3
Für die automatisierte Analyse wurden vom Zweitautor zwei Praat-Scripts programmiert,
nämlich CVTierCreator und DurationAnalyzer
(http://www.pholab.uzh.ch/leute/dellwo/software.html).
Stephan SCHMID & Volker DELLWO 115

Anhänge 6.1 und 6.2). In der folgenden Darlegung der Resultate gehen wir
nur auf diejenigen Zeitbereichsmasse ein, welche deskriptiv und
inferenzstatistisch signifikante Unterschiede hervorgebracht haben.

4. Resultate

4.1 Italienisch und Deutsch bei Muttersprachlern


Eine erste Analyse, die mit den so aufbereiteten Daten des BiCor-Korpus
durchgeführt werden kann, besteht in einem Vergleich der Resultate
unserer Muttersprachler mit den Werten, die in denjenigen Studien
berechnet wurden, welche die entsprechenden Rhythmusmasse vorge-
schlagen haben.
Sprache Rhythmusmass Ramus et al. Grabe & Low BiCor
(1999) (2002)
Deutsch (L1) nPVI-V 59.7 59.6
Deutsch (L1) rPVI-C 55.3 79.1
Italienisch %V 45.2 43.3
(L1)
Italienisch ∆C 0.048 0.048
(L1)

Tabelle 1: Rhythmusmasse bei Muttersprachlern

Der genau identische Wert für ∆C im Italienischen ist vielleicht auch darauf
zurückzuführen, dass z.T. das gleiche Sprachmaterial gelesen wurde; trotz-
dem ist das Resultat bei unterschiedlichen Sprechern bemerkenswert und
darf als Evidenz für die Hypothese der Rhythmusklassen angeführt werden.
Dies gilt im wesentlichen auch für die Masse %V und nPVI-V, wo nur gering-
fügige Unterschiede vorliegen. Unklar ist hingegen, worauf der deutliche
Unterschied bei rPVI-C zurückzuführen ist (wobei nicht auszuschliessen ist,
dass unsere Schweizer Sprecher mit einem langsameren Sprechtempo
gelesen haben, was sich auf das nicht normalisierte Rhythmusmass rPVI-C
auswirkt).

4.2 Sprechgeschwindigkeit bei Muttersprachlern, Sprachlernern


und bilingualen Sprechern
Um nun unsere drei Sprechergruppen zu vergleichen, betrachten wir als
erstes die in Silben pro Sekunde gemessene Sprechgeschwindigkeit. Diese
wird in Abb. 1 auf der Ordinate angezeigt, wobei neben den Mittelwerten
auch ein Konfidenzintervall angegeben wird (zusätzlich erhobene Werte
116 Sprachrhythmus bei bilingualen Sprechern

würden mit einer Wahrscheinlichkeit von 95% in die angezeigten Bereiche


zu liegen kommen). Auf der Abzisse erscheinen von links nach rechts die
drei Sprechergruppen; die beiden gelesenen Sprachen werden als Kreise
(Deutsch) und Quadrate (Italienisch) dargestellt.

Abb. 1: Mittelwerte und Konfidenzintervalle (95%) für die Sprechgeschwindigkeit


bei den drei untersuchten Sprechergruppen

Die Lage der einzelnen Boxplots scheint zu bestätigen, dass sich die
Phonotaktik einer Sprache auf die Sprechgeschwindigkeit auswirkt, wenn
man diese als Anzahl Silben pro Sekunde berechnet. In der Tat liegen die
Quadrate des Italienischen bei allen drei Sprechergruppen höher als die
Kreise des Deutschen: da die Silben des Italienischen in der Regel weniger
Segmente enthalten als diejenigen des Deutschen, kann man im
Italienischen durchschnittlich mehr Silben pro Sekunde artikulieren. Eine
ANOVA ergibt bezüglich der Sprechgeschwindigkeit signifikante Effekte für
die bilingualen Sprecher (F[1,99]=30.95, p<0.001) und die italophonen
Sprecher (F[1,99]=408.56, p<0.001). Bei den Sprechern mit Muttersprache
Deutsch ist der Effekt nicht signifikant (F[1,99]=2.7, p=0.1), da sie in der
Zweitsprache Italienisch deutlich langsamer lesen als die Muttersprachler
und die Bilingualen.
Daneben zeigt Abb. 1 aber auch deutliche Unterschiede zwischen den drei
Sprechergruppen. Die Deutschsprachigen artikulieren eine ähnliche Anzahl
Silben in beiden Sprachen, während die Italienischsprachigen am
schnellsten in der L1 und am langsamsten in der L2 lesen, so dass die
Sprechgeschwindigkeiten von Erst- und Zweitsprache weit auseinander
liegen. Am interessantesten für unsere Forschungsfrage erweist sich aber
die Gruppe der Bilingualen, deren Sprechgeschwindigkeit in beiden
Stephan SCHMID & Volker DELLWO 117

Sprachen zwischen den Werten der Muttersprachler und der Sprachlerner


liegen.
Die deskriptiven Effekte wurden mit einem linear mixed model auf
statistische Signifikanz getestet (R-Funktion: lme). Die Faktoren
'Muttersprache' und 'gelesene Sprache' wurden als fixed factors und die
Faktoren 'Satz' und 'Sprecher' als random factors in das Modell eingegeben.
Eine ANOVA der Modellergebnisse zeigt eine hochsignifikante und zu
erwartende Interaktion zwischen Muttersprache und gelesener Sprache
(F[2,147]=116.93, p<0.001). Aufgrund der gegebenen Interaktion wurden die
einfachen Effekte für 'Muttersprache' für die beiden Niveaus der gelesenen
Sprache getestet (α wurde Bonferroni-korrigiert zu 0.025 [0.05/2]). In
beiden Fällen ergeben sich hochsignifikante Unterschiede für 'Mutter-
sprache' (gelesene Sprache Deutsch: F[2,149]=20.85, p<0.001; gelesene
Sprache Italienisch: F[2,149]=19.57, p<0.001). Post hoc haben wir die
Unterschiede zwischen den einzelnen Muttersprachlergruppen (Deutsch,
Bilingual, Italienisch) für beide Effekte (gelesene Sprache Deutsch und
Italienisch) getestet. Für die Leseprache Italienisch sind alle
Gruppenunterschiede signifikant (p≤0.006), und auch für die Lesesprache
Deutsch sind praktisch alle Vergleiche hochsignifikant (p<0.001) – mit
Ausnahme des Vergleichs zwischen den Deutschsprachigen und den
Bilingualen, wo ein Signifikanzniveau von α=0.05 leicht überschritten wird
(p=0.06); bei der relativ kleinen Sample-Grösse betrachten wir eine solche
Überschreitung jedoch im Einklang mit den anderen Effekten als
signifikante Abweichung. Alles in Allem interpretieren wir diese Befunde als
Beleg für die oben formulierte Hypothese 2, welche besagt, dass sich die
bilingualen Sprecher von beiden Muttersprachlergruppen unterscheiden.

4.3 Variabilität der vokalischen Intervalle


Die Annahme der Rhythmusklassen sagt voraus, dass silbenbasierte Spra-
chen wie das Italienische eine niedrigere Variabilität der vokalischen Inter-
valle aufweisen als akzent- oder wortbasierte Sprachen wie das Deutsche.
Abb. 2 und 3 zeigen die Variabilität der vokalischen Intervalle anhand von
zwei normalisierten Rhythmusmassen, nämlich ∆Vln 4 und nPVI-V. Wie-
derum werden auf der Ordinate Mittelwerte sowie Konfidenzintervalle
(95%) für die beiden Rhythmusmasse und auf der Abszisse die drei
Sprechergruppen aufgetragen; die beiden gelesenen Sprachen erscheinen
als Kreise (Deutsch) und Quadrate (Italienisch).

4
Das von Dellwo (2010) eingeführte Rhythmusmass ∆Vln basiert auf ∆V und liefert anhand
einer log-normalen Transformation eine Normalverteilung der Daten.
118 Sprachrhythmus bei bilingualen Sprechern

Abb. 2: Mittelwerte und Konfidenzintervalle (95%) für ∆Vln (drei Sprechergruppen)

Abb. 3: Mittelwerte und Konfidenzintervalle (95%) für nPVI-V (drei Sprechergruppen)

Im Grossen und Ganzen zeigen beide Grafiken (und somit beide Rhythmus-
masse) eine analoge Tendenz, die in einem gewissen Sinne spiegelbildlich
zu der in Abb. 1 dargestellten Sprechgeschwindigkeit verläuft.
Die Variabilität der vokalischen Intervalle ist bei allen Gruppen höher im
Deutschen als im Italienischen, was möglicherweise mit der unter-
schiedlichen phonologischen Struktur der beiden Sprachen zusammen-
hängt. Im Deutschen werden unbetonte Vokale in Dauer und Klangfarbe
systematisch reduziert (z.B. in den Schwa-Silben) und die Vokalquantität
(d.h. die Unterscheidung zwischen langen und kurzen Vokalen) ist in den
betonten Silben distinktiv. Im Italienischen ist die Reduktion von
Stephan SCHMID & Volker DELLWO 119

unbetonten Vokalen viel weniger ausgeprägt und die Dehnung von betonten
Vokalen ist rein allophonisch, d.h. aufgrund einer phonologischen Regel
vorhersehbar (betonte Vokale werden in offener Silbe gedehnt).
Ein Vergleich der drei Sprechergruppen zeigt, dass die Italienisch-
sprachigen beim Lesen der deutschen Sätze viel kleinere Dauer-
unterschiede für aufeinander folgende vokalische Intervalle (und somit
zwischen betonten und unbetonten Vokalen) realisieren als die
Muttersprachler, was man als rhythmische Interferenz der Erstsprache
Italienisch auf die Zweitsprache Deutsch deuten kann. Umgekehrt zeigen
die Deutschsprachigen beim Lesen der italienischen Sätze eine niedrige
vokalische Variabilität als die Muttersprachler, was wohl weniger auf eine
Interferenz der L1 als auf eine 'hyperkorrekte' Realisierung des
Italienischen zurückgeführen ist, dessen Rythmus von den Deutsch-
sprachigen offenbar als ausgeprochen 'silbenzählend' oder gleichförmig
wahrgenommen wird.
Für die hier im Zentrum des Interesses stehenden Bilingualen ergibt sich im
Wesentlichen ein ähnliches Bild wie bei der Sprechgeschwindigkeit (4.2) –
zumindest was das Deutsche anbelangt, wo sowohl die ∆Vln-Werte als
auch die nPVI-V-Werte sich in einem mittleren Bereich zwischen den
Muttersprachlern und den Sprachlernern ansiedeln. Bei den italienischen
Sätzen der Bilingualen trifft dies auch für ∆Vln zu, während ihre nPVI-Werte
diejenigen der Muttersprachler leicht übersteigen. Ingesamt lassen sich
jedoch die Resultate der vokalischen Variabilität (die aus der Sicht des PVI-
Ansatzes das Hauptmerkmal des Sprachrythmus darstellt) im Sinn unserer
Hypothese 2 interpretieren, wonach der Sprachrhythmus von Bilingualen in
beiden Sprachen leicht von der zweiten Sprache beeinflusst wird.
Die Signifikanz dieser Effekte wurde auf die gleiche Weise getestet wie die
Sprechgeschwindigkeitseffekte (siehe oben). Das linear mixed model ergibt
wieder eine zu erwartende Interaktion für beide abhängigen Variabeln
(∆Vln: F[2,147]=7.07, p=0.001; nPVI-V: F[2,147]=4.53, p=0.012). Die
einfachen Effekte im Falle von ∆Vln sind sowohl für die deutsche als auch
die italienische Lesesprache nicht signifikant (p=0.062, respektive
p=0.135); für nPVI-V erreichen sie im Falle von Deutsch Signifikanz
(p=0.046), nicht jedoch im Fall des Italienischen (p=0.131). Die hier
schwach ausgeprägten Effekte können aber durchaus das Resultat der
eher geringen Datenmenge sein. Rein deskriptiv und aufgrund der
gelegentlichen Signifikanz interpretieren wir also auch diese Ergebnisse als
Evidenz dafür, dass sich die bilingualen Sprecher von beiden Mutter-
sprachlergruppen unterscheiden (Hypothese 2).
120 Sprachrhythmus bei bilingualen Sprechern

4.4 Der Anteil der stimmhaften Intervalle


Das letzte hier vorgestellte Zeitbereichsmass unterscheidet sich von den
vorhergehenden in zwei Punkten. Während bisher für die
Sprechgeschwindigkeit die Silbe als Berechnungsgrundlage verwendet
wurde (4.2) und für den Sprachrhythmus die Variabilität der vokalischen
Intervalle (4.3), wird nun beim Rhythmusmass %Voiced das Sprachsignal in
stimmhafte und stimmlose Intervalle aufgeteilt; zudem wird anstatt der
Variabilität der Dauern der durchschnittliche prozentuale Anteil der
stimmhaften Intervalle an den gesamten Äusserungen berechnet.
Die in der Folge dargestellten Resultate zeigen den Anteil der stimmhaften
Intervalle getrennt nach Sprechergruppen (Abb. 4: Italophone, Abb. 5: Bilin-
guale, Abb. 6: Deutschprachige), wobei innerhalb der einzelnen Diagramme
für jeden Sprecher jeweils zwei Boxplots die Verteilung von %Voiced im
Deutschen (weiss) und im Italienischen (schraffiert) darstellen.
Exemplarisch für die individuelle Variabilität innerhalb der drei Sprecher-
gruppen zeigen wir hier nur %Voiced, da wir für dieses Mass diesbezüglich
die eindeutigsten Ergebnisse fanden.
Der erste Eindruck gibt zunächst einen makroskopischen Effekt wieder, der
in der phonologischen Struktur der beiden Sprachen begründet ist: in allen
drei Diagrammen ist der Anteil der stimmhaften Laute beim Italienischen
höher als beim Deutschen.
Daneben ergeben sich aber auch Unterschiede zwischen den drei Spre-
chergruppen. Die Boxplots für das Italienische liegen bei den Mutter-
sprachlern (Abb. 6) in der Regel höher und setzen sich von den Boxplots des
Deutschen ab, während sie umgekehrt bei den Deutschsprachigen (Abb. 5)
eher tiefer liegen und sich z.T. mit denjenigen des Deutschen über-
schneiden. Hier scheint sich das Fehlen von stimmhaften Obstruenten im
Schweizerdeutschen auf die Aussprache in der Zweitsprache Italienisch
auszuwirken – ein Befund, der bereits für das Französische von Deutsch-
schweizern festgestellt wurde (vgl. Schmid, 2009).
Die %Voiced-Grafik der Bilingualen in Abb. 4 bestätigt insgesamt den Ein-
druck eines 'intermediären' Sprachrhythmus, den wir bereits anhand der
Sprechgeschwindigkeit und der vokalischen Variabilität gewonnen haben.
Tendenziell liegt bei ihnen der Daueranteil der stimmhaften Intervalle für
das Italienische (schraffierte Boxplots) höher als bei den Deutsch-
sprachigen (Abb. 5), aber trotzdem tiefer als bei den monolingualen
Italophonen (Abb. 6). Auch hier könnte sich zumindest eine partielle
Entsonorisierung der stimmhaften Obstruenten bemerkbar machen, wie sie
bei Sprechern der zweiten Generation von italienischen Einwanderern in
der Deutschschweiz auch schon beobachtet worden ist (vgl. Schmid, 2005).
Stephan SCHMID & Volker DELLWO 121

Abb. 4: Prozentualer Anteil stimmhafter Intervalle (%Voiced) bei Bilingualen

Abb. 5: Prozentualer Anteil stimmhafter Intervalle (%Voiced) bei Deutschsprachigen


122 Sprachrhythmus bei bilingualen Sprechern

Abb. 6: Prozentualer Anteil stimmhafter Intervalle (%Voiced) bei Italienischsprachigen

Neben des Einflusses der phonologischen Struktur der beiden Sprachen


und der unterschiedlichen Realisierung der stimmhaften Konsonanten bei
den drei Sprechergruppen ist in den Abb. 4-6 schliesslich ein zusätzlicher
Faktor erkennbar, nämlich die sprecherspezifische Variabilität. Von den
drei Gruppen scheint diejenige der Italophonen (Abb. 6) am homogensten zu
sein – wenn man mal vom Sprecher 11 ganz links absieht. Bei der Gruppe
der Deutschsprachigen (Abb. 5) scheint die von links nach rechts
aufsteigende Tendenz der stimmhaften Intervalle für das Italienische mit
dem Niveau der L2-Kompetenz der einzelnen Lerner zu korrelieren und
somit eine Art Interlanguage-Kontinuum abzubilden.
Für die hier aufgeworfene Frage des Sprachrhythmus bei Bilingualen ergibt
Abb. 4 ein gemischtes Resultat: die Sprecher 4 und 5 weisen eine geringe
Überlappung der italienischen und deutschen Boxplots auf, was auch für
die L1-Sprecher des Italienischen 12, 14, 15 zutrifft (sowie für die
kompetenteste L2-Sprecherin 10 in Abb. 5). Aufgrund des
Zeitbereichparameters %Voiced würde für die Sprecher 4 und 5 also eher
die native Hypothese 1 zutreffen, während für die anderen drei bilingualen
Sprecher sich die so genannt 'intermediäre' Hypothese 2 zu bestätigen
scheint, wofür bereits die Sprechgeschwindigkeit und die Variabilität der
vokalischen Intervalle eine gewisse Evidenz erbracht haben5.

5
Die ganz allgemeine Frage, inwieweit Zeitbereichsphänomene überhaupt sprecher-
spezifisch sind, wird in einem am Phonetischen Laboratorium angesiedelten SNF-
Forschungsprojekt anhand eines neu erstellten zürichdeutschen Korpus erforscht und kann
an dieser Stelle nicht ausführlich behandelt werden. Immerhin können wir darauf hinweisen,
Stephan SCHMID & Volker DELLWO 123

Eine linear mixed model-Analyse zeigt einen hochsignifikanten Effekt für


'Sprecher' (F[14,285]=8.48, p<0.001). Dies bedeutet, dass sich die Sprecher
unabhängig von ihrer gelesenen Sprache messbar rhythmisch voneinander
unterscheiden.

4.5 Variabilität der konsonantischen Intervalle


Effekte für die konsonantische Variabilität zwischen den drei Sprecher-
gruppen und den einzelnen Sprechern konnten weder deskriptiv noch
inferenzstatistisch ermittelt werden. Dieser Befund ist im Einklang mit
vorhergehenden Studien (z.B. Wiget et al., 2010).

5. Fazit

Die ersten Analysen des Korpus BiCor haben einige interessante


Ergebnisse zutage gefördert. Dazu dürfen zunächst die für mutter-
sprachliche Sprecher des Deutschen und Italienischen berechneten
Rhythmusmasse %V, ∆C und nPVI-V gezählt werden (4.1), welche
insgesamt die so genannte 'Hypothese der Rhythmusklassen' bestätigt;
gemäss dieser Hypothese unterscheiden sich Sprachen aufgrund von
Dauermerkmalen, die letztendlich auf phonologische Eigenschaften wie
Silbenstruktur oder Vokalreduktion zurückzuführen sind. Phonologische
Unterschiede zwischen dem Deutschen und dem Italienischen werden auch
durch ein anderes Mass der Vokalvariabilität (∆Vln) sowie anhand des
Anteils der stimmhaften Laute (%Voiced) veranschaulicht (4.3, 4.4).
Die Zeitbereichsmasse weisen neben der typologischen Charakteristik der
beiden Sprachen jedoch auch auf klare Unterschiede zwischen Sprecher-
gruppen mit unterschiedlichen Sprachkompetenzen hin. So lesen
Sprachlerner allgemein langsamer als Muttersprachler (4.2) und
Italienischsprachige variieren die Dauer von vokalischen Intervallen des
Deutschen weniger als Muttersprachler (4.3), was man auf einen Einfluss
des Sprachryhthmus der L1 auf die L2 zurückführen kann. Eher segmentale
Interferenz liegt vermutlich beim Parameter %Voiced vor aufgrund der
Entsonorisierung der stimmhaften italienischen Obstruenten durch die
Deutschschweizer.
Bezüglich der Hauptforschungsfrage des vorliegenden Beitrags – des
Sprachrhythmus bei Bilingualen – liegt Evidenz für beide eingangs
formulierten Hypothesen vor. Betrachtet man z.B. den Anteil der stimm-
haften Laute bei den fünf bilingualen Sprechern, so belegen zwei Sprecher
eher die Hypothese 1, wonach die Aussprache der Bilingualen in beiden
Sprachen mit derjenigen monolingualen Sprechern vergleichbar ist.

dass auch im BiCor-Korpus individuelle Unterschiede bezüglich der Sprechgeschwindigkeit


gefunden wurden (vgl. Schmid & Dellwo, 2012).
124 Sprachrhythmus bei bilingualen Sprechern

Umgekehrt stützen die %Voiced-Werte der drei anderen Bilingualen eher


die Hypothese 2, welche einen zwischen den beiden Sprachen liegenden
Sprachrhythmus erwarten lässt. Evidenz für diese 'intermediäre'
Hypothese findet man auch anhand der Sprechgeschwindigkeit und der
Dauervariabilität von vokalischen Intervallen.

Die in unseren Daten auftretende sprecherspezifische Variabilität weist


darauf hin, dass Unterschiede zwischen einzelnen Individuen einen
zentralen Untersuchungsgegenstand der zukünftigen Forschung zu sprach-
lichen Zeitbereichsmassen darstellen wird. Im Fall des Bilingualismus wäre
es dabei von Vorteil, wenn individuelle Faktoren wie die Häufigkeit des
Sprachgebrauchs in den beiden Sprachen kontrolliert werden könnten. Des
weiteren planen wir, mit unseren Daten auch Perzeptionsexperimente
durchzuführen; erste Pilotversuche bezüglich der Zuordnung der Stimuli zu
einer der drei Sprechergruppen haben ermutigende Ergebnisse geliefert.
Für die Sprachrhythmusforschung allgemein gilt schliesslich, dass in
Zukunft der Einfluss vielfältiger Faktoren – vom Sprechstil und der phono-
taktischen Struktur der analysierten Sätze (Arvaniti, 2012) bis hin zur
Häufigkeit von Wortformen (Harris & Gries, 2011) – genauer reflektiert
werden muss.

Bibliographische Angaben

Abercrombie, D. (1967): Elements of General Phonetics. Edinburgh (Edinburgh University Press).


Arvaniti, A. (2012): The usefulness of metrics in the quantification of speech rhythm. Journal of
Phonetics, 40, 351-373.
Auer, P. & Uhmann, S. (1988): Silben- und akzentzählende Sprachen. Literaturüberblick und
Diskussion. Zeitschrift für Sprachwissenschaft, 7, 214-259.
Bertinetto, P.M. (1977): 'Syllabic blood' ovvero l’italiano come lingua ad isocronismo sillabico.
Studi di grammatica italiana, 6, 69-96.
Boersma, P. & Weenink, D. (2011): Praat: doing phonetics by computer (Version 5.2).
Bunta, F. & Ingram, D. (2007): The acquisition of speech rhythm by bilingual Spanish- and English-
speaking 4- and 5-year old children. Journal of speech, language and hearing research, 50,
999-1014.
Carter, P. (2005): Quantifying rhythmic differences between Spanish, English, and Hispanic
English. In R. S. Gess & E. J. Rubin (eds.), Theoretical and experimental approaches to
Romance linguistics: Selected papers from the 34th linguistic symposium on Romance
languages. Amsterdam (John Benjamins), 63–75.
Dellwo, V. (2006): Rhythm and speech rate: a variation coefficient for ∆C. In P. Karnowski & I.
Szigeti (eds.), Language and language-processing. Frankfurt am Main (Peter Lang), 231-241.
— (2010): Choosing the right speech rate normalization method for measurements of speech
rhythm. In S. Schmid, M. Schwarzenbach & D. Studer (eds.), La dimensione temporale del
parlato. Torriana (EDK Editore), 13-32.
Stephan SCHMID & Volker DELLWO 125

Dellwo, V., Fourcin, A. & Abberton, E. (2007): Rhythmical classification of languages based on
voice parameters. In J. Trouvain & W. Barry (eds.), Proceedings of the 16th International
Congress of Phonetic Sciences. Saarbrücken, 1129-1132.
Dellwo, V., Gutiérrez Díez, F. & Gavalda, N. (2009): The development of measurable speech rhythm
in Spanish Speakers of English. In Actas del XI Simposio internacional de comunicación
social. Santiago de Cuba, 594-597.
Galloway, R. (2007): Bilinguals’ interacting phonologies? A study of speech production in French-
Swiss German bilinguals. Master Thesis, University of Cambridge.
Grabe, E. & Low, E.L. (2002): Durational Variability in Speech and the Rhythm Class Hypothesis. In
C. Gussenhoven (ed.), Papers in Laboratory Phonology 7. Berlin (Mouton de Gruyter), 515-
546.
Gut, U. (2003): Non-native rhythm in German. In M.J. Solé, D. Recasens & J. Romero (eds.),
Proceedings of the 15th International Congress of Phonetic Sciences. Barcelona, 2437-2340.
— (2009): Non-native speech. A corpus-based analysis of phonological and phonetic properties of
L2 English and German. Frankfurt a.M. (Peter Lang).
Harris, M.J. & Gries, S.Th. (2011): Measures of speech rhythm and the role of corpus-based word
frequency: a multifactorial comparison of Spanish(-English) speakers. International Journal
of English Studies, 11(2), 1-22.
Mairano, P. & Romano, A. (2011): Rhythm metrics for 21 languages. In W.S. Lee & E. Zee (eds.),
Proceedings of the 17th International Congress of Phonetic Sciences. Hong Kong, 1318-
1321.
Missaglia, F. (1999): Contrastive prosody in SLA – an empirical study with adult Italian learners of
German. In J. Ohala et al. (eds.), Proceedings of the 14th International Congress of Phonetic
Sciences. Berkeley (University of California), 551-554.
Munro, M. & Derwing, T. (2001): Modeling perceptions of the accentedness and comprehensibility
of L2 speech: the role of speaking rate. Studies in Second Language Acquisition, 23, 451-468.
Pike, K. (1945): The intonation of American English. Ann Arbor (University of Michigan Press).
Ramus, F., Nespor, M. & Mehler, J. (1999): Correlates of linguistic rhythm in the speech signal.
Cognition, 72, 1-28.
Schmid, S. (2005): Spelling and pronunciation in migrant children: the case of Italian-Swiss
German bilinguals. In V. Cook & B. Bassetti (eds.), Second language writing systems.
Clevedon, Multilingual Matters: 184-211.
— (2009): La prononciation du français par des élèves d’un lycée zurichois. In: Hans-Rudolf
Nüesch (éd.), Galloromanica et Romanica. Mélanges de linguistique offerts à Jakob Wüest.
Tübingen (Francke), 253-268.
Schmid, S. & Dellwo, V. (2012): Caratteristiche temporali del parlato italiano e tedesco: un con-
fronto tra parlanti nativi, non-nativi e bilingui. In M. Falcone & A. Paoloni (a cura di), La voce
nelle applicazioni. Roma (Bulzoni), 159-174.
Tortel, A. & Hirst, D. (2010): Rhythm metrics and the production of English L1/L2. In Proceedings of
Speech Prosody 2010, Chicago [http://speechprosody2010.illinois.edu/papers/100959.pdf].
White, L. & Mattys, S. (2007): Calibrating rhythm: first language and second language studies.
Journal of Phonetics, 35, 501-522.
Wiget, L., White, L., Schuppler, B., Grenon, I., Rauch, O. & Mattys, S.L. (2010): How stable are
acoustic metrics of contrastive speech rhythm?. Journal of the Acoustical Society of
America, 127, 1559-1569.
Withworth, N. (2002): Speech rhythm production in three German-English bilingual families. In D.
Nelson (ed.), Leeds Working Papers in Linguistics and Phonetics, 9, 175-205.
126 Sprachrhythmus bei bilingualen Sprechern

Anhang: die gelesenen Sätze

Die zehn deutschen Sätze


1 Die Frau des Apothekers weiss immer was sie will.
2 Das Theater hat viele neue Aufführungen geplant.
3 Er wollte sich seiner Schwächen einfach nicht bewusst werden.
4 Der Öffentliche Verkehr lässt zu wünschen übrig.
5 Die schlechte Zahlungsbilanz lässt mich nicht zur Ruhe kommen.
6 Die Eltern geben ihm keine finanzielle Unterstützung.
7 Die starken Frühlingsregen richten viele Schäden an.
8 Der schnellste Zug ist immer noch der ICE.
9 Der Wiederaufbau der Stadt wird sehr lange dauern.
10 Das Bildungsministerium hat den einfachsten Weg gewählt.

Die zehn italienischen Sätze


1 La moglie del farmacista sa sempre ciò che vuole.
2 Il teatro ha introdotto molte nuove discipline.
3 Non ha mai voluto rendersi conto dei suoi gran difetti.
4 L’organizzazione dei trasporti collettivi è carente.
5 La situazione della bilancia dei pagamenti non mi lascia mai tranquillo.
6 I genitori lasciano Marco senza risorse.
7 Le forti piogge della primavera sono dannose.
8 Il treno più rapido resta comunque il pendolino.
9 La ricostruzione della città dovrà farsi lentamente.
10 Il Ministero della Cultura ha scelto la via più semplice.
Travaux neuchâtelois de linguistique, 2013, 59, 127-148

(How) can listeners identify the L1 in foreign


accented L2 speech?

Marie-José KOLLY and Volker DELLWO


Phonetisches Laboratorium der Universität Zürich

Par son accent étranger, un locuteur/une locutrice révèle son origine, sa langue
maternelle. Ainsi, la majorité des Suisses alémaniques seront reconnus comme tels,
en parlant une langue seconde. A partir de cet accent 'suisse allemand', est-ce qu’on
pourra aussi deviner la région dialectale d’où provient le locuteur/la locutrice? Et, si la
perception humaine permet l’identification de ces subtilités, quels en sont les indices
pertinents dans le signal linguistique? Les expériences de perception conduites avec
nos sujets suisses alémaniques démontrent, dans un premier temps, que des
différences d’accent dues à un dialecte particulier peuvent être perçues non
seulement dans du matériel linguistique allemand standard, mais aussi quand lesdits
locuteurs parlent français. Une expérience ultérieure explore l’importance des
données temporelles, ou rythmiques, pour l’identification d’un accent étranger.

1. Introduction

(How) does the foreign accent of a speaker allow us to take guesses about
his/her origin? The present article addresses these two questions by means
of two perception experiments: first, we investigate whether the linguistic
origin of L2 speakers can be identified perceptually at all. If so, we further
explore how listeners identify the origin of foreign accents, i.e. based on
which acoustic cues.
In certain situations it is typically easy for listeners to identify the L1 of an
L2 speaker. If we think of L2 German, for example, the use of uvular trills for
German /r/ and nasal vowels often leads listeners to identify a French
accent. Likewise, the use of alveolar approximants for German /r/ and the
unrounding of front rounded vowels will often point towards an English
accent. Typically, such cues for accent identification result from the
transfer of certain phonetic characteristics of the speaker’s L1 to his L2
speech. Listeners can thus typically discriminate English-accented German
speech from French-accented German speech (cf. Boula de Mareuïl et al.,
2008, for comparable language constellations). In other situations however,
it might be more difficult to identify or discriminate foreign accents. First,
French and English in the above examples are two distinct languages that
differ in many aspects. Could listeners also recognise foreign accents that
stem from more closely related varieties, like dialects? Second, there are
different kinds and combinations of cues that create the impression of
particular accents (cf. Cunningham-Andersson & Engstrand, 1987). The
above examples present segmental cues for accent identification. Do other
128 (How) can listeners identify the L1 in foreign accented L2 speech?

cues, for example prosodic cues, also allow listeners to identify foreign
accents?
In our first experiment we examine whether foreign accents stemming from
closely related varieties can be identified perceptually. Closely related
varieties are found e.g. in German-speaking Switzerland, a region well-
known for having a diverse dialectal landscape in a relatively small space.
We investigate whether the dialectal origin of Swiss German speakers (from
Bern and St. Gallen) is perceivable in L2 speech of these speakers, e.g. L2
Standard German or L2 French.
The Standard German variety spoken in Switzerland
(Schweizerhochdeutsch) is not a real L2 for Swiss German dialect speakers;
it is better described as an "extended" version of their L1 and its
acquisition is considered to be an "erweiterter Erstspracherwerb mit
einigen Zügen von Zweitspracherwerb" (Häcki Buhofer & Burger, 1998: 137).
French, however, is taught as a first L2 in the majority of Swiss German
primary schools. Swiss German accented French is commonly referred to
as français fédéral (cf. Kolly, 2010). Swiss German as well as Swiss French
listeners were tested in this experiment: Swiss German listeners heard
Standard German and French stimuli and had to indicate the dialectal
origin of the speakers (open response). Swiss French listeners heard
French stimuli and had to indicate whether the speaker was from Bern or
from St. Gallen (cf. 2.1.3)1.
We expect that Swiss German listeners will more easily recognise dialectal
accents than Swiss French listeners. Swiss German listeners are used to
hearing people with different dialectal backgrounds talk Standard German
or French (e.g. at school). It has been shown that they can recognise Swiss
German dialects as well as dialectal accents in Standard German speech
above chance when confronted with a multiple choice task (cf. Guntern,
2011, including 8 Swiss dialect regions). Swiss French listeners naturally
have less contact with Swiss German-accented speech and are not
expected to have much knowledge about the Swiss German dialectal
landscape. Even in Fribourg/Freiburg, the bilingual town where our
listeners come from, Swiss French speakers’ contact with Swiss German
dialects is rather small (cf. Muller, 1998, for the situation in Biel/Bienne, a
comparable bilingual Swiss town with a proportionally larger Swiss German
population). Given the difficulties, the lack of interest and the negative
attitudes that go with the acquisition of German for many Swiss French
people (cf. Muller, 1998; Fuchs & Werlen, 1999; Kolly, 2011), the hypothesis
that this group of listeners could recognize particular Swiss German
1
Results from this experiment are also presented in Kolly (2010) and Kolly (2013) in German,
where more weight is given to the particularities of each speaker. The present article
provides a more general approach to the question whether dialectal accents can be
recognised perceptually.
Marie-José KOLLY & Volker DELLWO 129

dialectal accents is ambitious. The question if listeners can identify


particular foreign accents, investigated in this first experiment, leads to our
second question: how can listeners identify particular foreign accents?
In our second experiment we examine some of the acoustic correlates of
perceptual accent recognition. L2 speech contains a large amount of
acoustic cues which are perceptually salient to the listener, and particular
accents are often characterised by a certain amount and combination of
those cues. Although acoustic cues for this kind of perceptual task were
traditionally assumed to rely predominantly on a segmental level (cf. Boula
de Mareuïl et al., 2008), research more and more considers prosodic
aspects of L2-speech (cf. Flege, 1992; Tajima et al., 1997; Jilka & Möhler,
1998; Hirschfeld & Trouvain, 2007; Atterer & Ladd, 2004; Missaglia, 2007).
Within this research on the prosody of foreign accents, people have been
trying to capture speaker origin in different ways and have shown that
foreign accents can be recognized in several types of degraded speech
signals (cf. Van Els & De Bot, 1987; Boula de Mareuïl & Vieru-Dimulescu,
2006, for foreign accent recognition; Bush, 1967; Leemann & Siebenhaar,
2008; White et al., 2012, for dialect recognition). These studies have
focused on the frequency-domain of speech, while there has been
relatively little research on the time-domain (cf. White et al., 2012, for the
perceptual discrimination of dialects based on the durational variability of
vocalic and consonantal intervals). To our knowledge the time-domain has
not been tapped into in terms of the perceptual recognition of foreign
accents. However, the idea that temporal prosodic characteristics (for
example speech rhythm) play a role in non-native speech has a long
tradition; Lloyd James (1929), for example, discussed the transfer of L1
rhythmic cues to English by French speakers, which has an effect on their
intelligibility.
Research about so-called "rhythm classes" (cf. Dellwo, 2006, for an
overview) has shown that there is a perceivable difference in timing
patterns between allegedly stress-timed languages like English, Dutch and
German and allegedly syllable-timed languages like French, Italian and
Spanish. Even if those rhythm classes are discussed controversially
nowadays (cf. e.g. Arvaniti, 2012), they seem to have some perceptual
relevance. If we assume that speakers transfer prosodic characteristics
and, in particular, timing patterns from their native language to a second
language, we expect perceivably different timing patterns in L2 German
spoken by a native speaker of another stress-timed language, e.g. English,
and in L2 German spoken by a native speaker of a syllable-timed language,
e.g. French. If this is true, we expect French-accented German to sound
rhythmically different from and, in particular, more marked than English-
accented German. Our second experiment thus investigates whether
130 (How) can listeners identify the L1 in foreign accented L2 speech?

French-accented German can be distinguished from English-accented


German in degraded speech signals that contain primarily temporal cues.
Temporal cues are found on many levels of the speech signal. We explore
different types of speech durational characteristics in order to test whether
they contain cues relevant to the perceptual impression of French and
English accented German. We conducted perception experiments with
Swiss German listeners and used three different types of signal degraded
speech to draw subjects’ attention to different temporal and rhythmic
prosodic aspects: (a) amplitude envelope timing characteristics (in noise
vocoded speech, cf. Shannon et al., 1995), (b) segment durations (in 1-bit
requantised speech), and (c) the durational variability of voiced and
unvoiced intervals (in sasasa-speech, cf. Ramus & Mehler, 1999; Fourcin &
Dellwo, 2009). Each of three listener groups are presented with one of the
signal conditions and had to decide, for each stimulus, whether they heard
a French or an English accent. The three signal conditions are severely
degraded in the frequency-domain and each preserve primarily one
particular type of durational characteristic. We thus examine whether
listeners can distinguish foreign accents if their perception is restricted to
temporal characteristics of speech. We expect that some types of temporal
cues will lead to higher recognition rates than others.

2. Experiment 1: Can listeners recognise the dialectal origin of a


foreign accent?

If listeners are familiar with the native language of a speaker, they are often
able to identify this native language only by hearing the speaker’s L2
speech (cf. Boula de Mareuïl et al., 2008). Can listeners also differentiate
between dialectal foreign accents, e.g. between Bern dialect-accented
Standard German/French and St. Gallen-accented Standard
German/French? Our Bern speakers come from the city of Bern and our St.
Gallen speakers from the city of St. Gallen. The varieties spoken in the
cities of Bern and St. Gallen stand for a western and an eastern Swiss
German dialect. The two varieties differ in a number of linguistic and, in
particular, phonetic variables (cf. Kolly, 2010, 2013).

2.1 Method

2.1.1 Subjects

Our within-subject design involved a group of 60 native Swiss German and


20 native Swiss French listeners. 46 of the Swiss German subjects were
students from Bern University, 14 from Zurich University. This listener
group was assumed to have a comparable knowledge of Standard German
and French due to school education in Switzerland: In Swiss German
Marie-José KOLLY & Volker DELLWO 131

primary schools, Standard German is introduced at the beginning of


primary school and French is learned as a first L2. Therefore, Swiss German
listeners were also assumed to have a comparable experience with Swiss
German-accented Standard German and French. The Swiss French
listeners were students from the School of Business Administration 2 in
Fribourg. This listener group was assumed to have similar knowledge of
Standard German due to school education in Switzerland, where Standard
German is learnt as a first L2 in Swiss French primary schools. Furthermore,
the Swiss French listeners were assumed to have a comparable experience
with Swiss German-accented French due to their similar education, which
implies similar chances for contact with Swiss German native speakers.
Subjects’ age ranged from 18 to 31 years. None of the listeners reported
any significant problems with hearing or sight.

2.1.2 Material

Speech was collected from eight speakers: four native speakers of Bern
Swiss German and four native speakers of St. Gallen Swiss German (two
males and two females each). All speakers, as well as their parents, grew
up and lived in their respective cities and all of them had higher education,
i.e., comparable proficiency in Standard German and French. Speakers’ age
ranged between 21 and 28. During the perception experiment, speakers
were rated for accent degree on a five-point scale for a related
investigation (cf. Kolly, 2010, 2011).3 Accent degree ranged between 2.77
and 3.92 in Standard German speech and between 2.44 and 4.06 in French
speech.
Speakers read a short text in Standard German and French (the fable The
Northwind and the Sun, cf. The International Phonetic Association,
1999/2003: 81, 89). They also spoke spontaneously about their morning
routine. Before the recordings, speakers did not familiarise themselves
with the material. Recordings took place in a quiet room in their respective
home or office, with a Fostex FR-2LE solid-state recorder (sampling rate of
48kHz, 16-bit quantisation) and a Sennheiser clip-on MKE 2p-c microphone.
We thus collected 4 samples per speaker: read and spontaneous speech in
Standard German and in French (mean duration: 40 s for read German
samples, 37 s for spontaneous German samples, 53 s for read French
samples, 51 s for spontaneous French samples). All of those samples were
used as stimuli to construct a Standard German and a French perception
experiment, containing 16 stimuli each (8 speakers * 2 speaking styles).

2
Tertiary institution.
3
1 = no accent; 2 = rather no accent; 3 = slight accent; 4 = clearly perceivable accent; 5 =
strong accent.
132 (How) can listeners identify the L1 in foreign accented L2 speech?

2.1.3 Procedure

Swiss German listeners were presented with the stimuli of the Standard
German as well as the French perception experiment (i.e., 32 stimuli) in a
classroom at Bern resp. Zurich University. Swiss French listeners were
presented with the French perception experiment only (i.e., 16 stimuli), in a
classroom at the School of Business Administration in Fribourg. Stimuli
were presented over loudspeakers. They were presented in two blocks,
where the Standard German experiment was conducted before the French
experiment. Within the blocks, stimuli were presented in a randomised
order.
Listeners submitted their responses in a paper and pencil setting. For each
stimulus, listeners had to guess the dialectal origin of the speaker.
Concerning this task, two options were considered: an alternative forced
choice task, where listeners have to attribute each stimulus to either a
Bern or a St. Gallen dialectal accent; and an open response task, where
listeners have no knowledge about which or how many different Swiss
dialectal accents are represented in the stimuli and take their guesses in a
completely open manner. Therefore, a pilot experiment was conducted with
Swiss German as well as Swiss French listeners. Some listeners were
presented the stimuli with an alternative forced choice task, others with an
open question. The pilot showed a ceiling effect for Swiss German listeners
in the alternative forced choice task. The open response task was thus
chosen for this group of listeners. The Swiss French listeners, however,
were not able to perform the open response task in the pilot experiment: in
most cases, all fields were left blank. Therefore, the alternative forced
choice task was chosen for Swiss French listeners. This difference in tasks
depending on listener group entails the need for two different analysis
methods.
The forced alternative choice task used for the Swiss French listeners
represents the typical Bernoulli trial with two possible outcomes: success
(correct identification) and failure (false response). We thus applied one-
tailed binomial tests with an alpha-level of 0.05. For between-condition
comparisons we used paired Wilcoxon signed rank tests, since the small
sample does not allow the assumption of normally distributed data. The
open question used for the Swiss German listeners, however, yields a
variety of different responses that cannot be analysed as easily. Results
are thus presented in a descriptive framework. Responses were
categorised according to a careful analysis of the Swiss phonetic
landscape (for details cf. Kolly 2010, 2013). We have created three
decreasingly "strict" categories to be used for descriptive results, as
presented in Table 1 and illustrated in Figure 1. A distinct categorisation of
continuous dialectal spaces, as used here, is obviously an artificial
Marie-José KOLLY & Volker DELLWO 133

construct (cf. Christen, 2010: 269–272). Nevertheless, based on the work


presented in Kolly (2010, 2013), this categorisation can approximate the
reality of continuous dialectal spaces in a way that is systematic and based
on extensive research about the Swiss dialectal landscape – including the
Atlas of German-speaking Switzerland (cf. Sprachatlas der Deutschen
Schweiz 1962–2003; Bachmann, 1908; Hotzenköcherle, 1961, 1984; Haas,
1985, 2000; Siebenhaar, 1994; Leemann & Siebenhaar, 2008).

Accepted responses for Bern Accepted responses for St.


dialectal accent Gallen dialectal accent
"narrow"
BE SG
category
"middle" BE SG
category SO, FR TG, SH, AP, (north-)eastern
Switzerland
"broad" category BE SG
SO, FR TG, SH, AP, (north-)eastern
BA, LU, AG, VS, UR, western Switzerland,
Switzerland, western midland ZH, GR, GL, SZ eastern
Switzerland, eastern midland
Table 1: Categorization of responses using the abbreviations for names of Swiss cantons (an
administrative entity usually associated with broad dialect groups, cf. Christen, 2010: 273–281;
Kolly, 2010)

Figure 1: Categories "narrow", "middle" and "broad" for the west/east contrast (thick line), coded
by increasingly light shades of grey
134 (How) can listeners identify the L1 in foreign accented L2 speech?

2.2 Results
Descriptive results from the perception experiment with Swiss German
listeners are presented in figures 2–4. The id-sectors in the pie charts are
based on the "middle" category described above. Added to the sectors grey
area, they represent the "broad" category, i.e. listeners’ ability to identify a
western/eastern dialectal accent in the speech material (see section 2.1.3).
Figure 2 shows the identification rates for all speakers; Figures 3 and 4
present the same for Bern and St. Gallen speakers separately.

read speech, DE spontaneous speech, DE

id; 55.8% id; 43%

grey area; 8.1%

grey area; 9.4%


not id; 34.8%
not id; 48.9%

read speech, FR spontaneous speech, FR

grey area; 9.4%


id; 32.8%
grey area; 9% id; 25.3%

not id; 58.2% not id; 65.3%

Figure 2: Average recognition rates over all stimuli per language and speaking style; id = correctly
identified as being from BE/FR/SO (Bern speakers) or north-eastern Switzerland (St. Gallen
speakers); id + grey area = correctly identified as being from western (Bern speakers) or eastern
(St. Gallen speakers) Switzerland; not id = not correctly identified

We observe an average dialect recognition rate over both speaking styles of


49.4% in Standard German speech and of 29.1% in French speech (cf.
Figure 2, sectors id). If we consider listeners’ general ability to identify
Marie-José KOLLY & Volker DELLWO 135

western vs. eastern dialectal accents, we obtain identification rates of


58.2% in Standard German and 38.8% in French speech (cf. Figure 2,
sectors id + grey-area).
The average recognition scores over both speaking styles in Standard
German speech are similar for Bern (50.25%) and St. Gallen (48.6%)
accents; however, the accent recognition scores differ for French speech
(Bern: 32.6%, St. Gallen: 25.5%; cf. Figures 3, 4, sectors id).
Further, we observe an average accent recognition rate over both L2s of
45.1% for read speech and 29.1% for spontaneous speech.

read speech, DE spontaneous speech, DE

id; 59.4% id; 37.8%

grey area; 9%

grey area; 5.8%


not id; 34.8%
not id; 53.2%

read speech, FR spontaneous speech, FR

grey area; 10.1%


grey area; 9.2% id; 30.7%
id; 20.3%

not id; 69.6%


not id; 60.1%

Figure 3: Average recognition rates over all St. Gallen-accented stimuli per language and speaking
style; id = correctly identified as being from north-eastern Switzerland; id + grey area = correctly
identified as being from eastern Switzerland; not id = not correctly identified

A one-tailed binomial test shows that Swiss French listeners can


significantly discriminate the two dialectal accents (p < 0.01). As for the
Swiss German listeners, the mode is always the correct response.
136 (How) can listeners identify the L1 in foreign accented L2 speech?

A paired two-sample Wilcoxon test shows that there is no significant


difference in the recognition of the Bern and the St. Gallen accent by Swiss
French listeners.
Another paired two-sample Wilcoxon test shows that there is no significant
difference between accent recognition in read and in spontaneous speech
by Swiss French listeners.
In both the Swiss German and the Swiss French listener group there is
considerable variability between the recognition scores of particular
speakers. This variability seems to rely to some part on accent degree (cf.
Kolly, 2011).4

read speech, DE spontaneous speech, DE

id; 52.3% id; 48.2%

grey area; 7.3%

grey area; 12.9%


not id; 34.8% not id; 44.5%

read speech, FR spontaneous speech, FR

id; 34.9% grey area; 8.7% id; 30.3%


grey area; 8.8%

not id; 56.3% not id; 61%

Figure 4: Average recognition rates over all Bern-accented stimuli per language and speaking
style; id = correctly identified as being from BE/SO/FR; id + grey area = correctly identified as
being from western Switzerland; not id = not correctly identified

4
Speaker-specific results and a discussion of the reasons why particular speakers were
easier or more difficult to identify are presented in Kolly (2010, 2013).
Marie-José KOLLY & Volker DELLWO 137

2.3 Discussion
We have tested whether Swiss German and Swiss French listeners are able
to perceive the dialectal origin of Bern and St. Gallen speakers in accented
Standard German and French L2 speech. Because of their different
experience with Swiss German-(accented) speech, different response tasks
were designed for the Swiss German and the Swiss French listeners (cf.
2.1.3). Therefore, two different methods of analysis had to be used and
results have to be read with the experimental procedure in mind: Swiss
German listeners had no knowledge of which and how many Swiss German
dialectal accents were represented in the material (open response) – an
alternative forced choice task would obviously have yielded different
identification scores. Swiss French listeners had to respond in an
alternative forced choice task. Results show that the dialectal accents are
recognised not only in the Standard German, but also in the French speech
material.
The hypothesis that dialectal accents of Swiss German speakers can be
identified in Standard German speech is confirmed for the two dialects at
hand. This result is in line with Guntern (2011). On average, dialectal
accents in Standard German speech are correctly identified by about 50%
of our Swiss German listeners when considering the above defined
"middle" category (i.e., accepted responses: dialects of Bern, Solothurn,
Fribourg for Bern accented stimuli; north-eastern Switzerland for St. Gallen
accented stimuli). Dialectal accents in French stimuli were correctly
identified by 30% of the Swiss German listeners; they were significantly
discriminated by Swiss French listeners.
We thus note that Swiss German listeners reach higher recognition scores
when hearing dialectal accents in Standard German speech than in French
speech. This was to be expected, since Swiss German listeners have more
experience Standard German spoken by Swiss German dialect speakers
than with French spoken by Swiss German dialect speakers.
The result for the Swiss German listener group is remarkable, as very subtle
accent distinctions could be recognised. However, it is in line with the fact
that dialects occupy an important role for the identity of many Swiss
German people and are a frequent topic of conversation among them. Swiss
dialects (as opposed to Standard German) are the common variety used in
conversational situations and, other than dialects in other linguistic regions,
they are the prestige, not the stigma variety in the Swiss diglossic situation
(cf. Hotzenköcherle, 1984; Werlen, 2000; Haas, 2004; Christen, 2010).
However, given the literature about the contact situation between Swiss
French and Swiss German people as well as the attitudes of many Swiss
French people towards the acquisition of German (cf. 1, Muller, 1998; Fuchs
138 (How) can listeners identify the L1 in foreign accented L2 speech?

& Werlen, 1999), the result for the Swiss French listener group is even more
remarkable.
The distinction of a more global western or eastern dialectal accent in
Standard German speech is recognised by almost 60% of the Swiss German
and 40% of the Swiss French listeners. This illustrates the prominence and
the perceptual salience of an east/west divide in the Swiss dialectal and, in
particular, phonetic landscape. Compared to dialect recognition rates of
about 36% as described by Bauvois (1996: 300f.) for regional Belgian
French accents, many of the above described rates are surprisingly high.
Bauvois (1996) uses a similar method since her listening task involves an
open question. A comparison with further accent perception studies like
the ones described by Boula de Mareuïl et al. (2008), Guntern (2011) and
others is delicate because of their different experimental task (cf. 2.1.3).
Both accents reach similar recognition scores in Standard German speech;
in French speech, however, the Bern dialectal accent is easier to identify
than the St. Gallen accent, for Swiss German listeners. This is not the case
for Swiss French listeners: no significant difference in recognition rates
between the two accents is observed. The result observed in the Swiss
German listener group may have to do with the fact that the St. Gallen
dialect shares more phonetic features with French than the Bern dialect
(typically vowel qualities and the /r/-sound, see Kolly, 2010, 2013). We
hypothesise that a Bern accent in French speech sounds more salient than
a St. Gallen accent and is thus easier to recognise. However, this result is
bound to the "middle" category presented in the figures. If we take look at
the "narrow" category that only accepts responses containing "Bern" or "St.
Gallen", the Bern accent yielded higher recognition scores: Bern stimuli
often triggered the precise response "Bern", whereas the St. Gallen stimuli
mostly provoked responses like "Nordostschweiz" ‘north-eastern
Switzerland’ or "Ostschweiz" ‘eastern Switzerland’. Here we have to
indicate the overrepresentation of listeners from Bern University which
might entail a bias: listeners perceive more differences in varieties that are
linguistically close to their own – "aus der Ferne dagegen mögen
Sprecherinnen und Sprecher aus dem Schaffhausischen und dem Thurgau
recht ähnlich in den Ohren klingen, was die Betroffenen selbst natürlich
ganz anders sehen..." (Christen, 2005: 21). A further explanation is that the
(dialectologically very diverse) canton of Bern seems to represent a single
dialect in the mental representations of many Swiss Germans, whereas the
(north-)eastern dialect varieties are perceived as a unity.5
Accents are easier to identify in read than in spontaneous speech, for Swiss
German listeners. The result is in line with Kolly (2011), who found that read

5
Cf. Christen (2010: 277–278) for the special status of the category 'eastern Switzerland' that
is often used in a similar way as canton names for referring to dialects.
Marie-José KOLLY & Volker DELLWO 139

speech is perceived as being more accented than spontaneous speech. For


the French listener group, however, there is no significant difference in
recognition rates between the two speaking styles. The fact that read
speech allowed higher accent identification rates for Swiss German
listeners possibly has to do with the controlled speech material that
allowed for better comparison between stimuli. Also, stimulus duration was
usually higher in the read samples, giving time for potentially more acoustic
accent cues to occur during stimulus presentation. Further, speakers might
have been cognitively more involved when reading a text than when
speaking spontaneously – what might have left less resources for the
phonetic implementation of L2 speech.
The fact that we observe no difference between recognition rates for St.
Gallen and Bern accents or in spontaneous and read speech in our Swiss
French listener group might have to do with the different methods of
analysis. Also, Swiss French listeners might perceive less detail
information in Swiss German-accented speech, since they have less
experience in the processing of Swiss German-accented speech than Swiss
German listeners.
The accent recognition scores vary considerably between speakers. This is
related to speakers’ accent degree to some part (cf. Kolly, 2010, 2013). To
another part, there must be certain acoustic accent cues (present in some
speakers’ L2 speech) that are more salient to listeners than other cues
(present in other speakers’ L2 speech). In fact, certain speakers’ accent
was well recognised by Swiss German as well as Swiss French listeners.
Other speakers’ accent was well recognised by Swiss German, but not by
Swiss French listeners – and vice versa. Therefore, we hypothesise that
French listeners focus on different acoustic cues than Swiss German
listeners, when they perceive and categorise accented French speech.
More research is needed to explore the types and combinations of acoustic
cues that are salient indicators of a particular accent to a particular
listener group. In the following experiment, we explore the perceptual
importance of different durational cues for the recognition of English- and
French-accented German by Swiss German listeners.

3. Experiment 2: how do listeners perceive L1 of an L2 speaker –


do temporal characteristics play a role?

As we have established that listeners can identify very subtle accent


distinctions in Experiment 1, we now turn to the question on which basis
listeners take such perceptual decisions. As explained in 1, we investigate
the recognisability of French- and English-accented German in cases
where listeners are restricted to primarily temporal cues. Three different
types of signal degradations are used in order to explore the perceptual
140 (How) can listeners identify the L1 in foreign accented L2 speech?

salience of three types of temporal cues in relation with the foreign accents
at hand.
In noise vocoded speech, spectral information is removed from the signal
and replaced by band-limited noise. The resulting signal is strongly
degraded in the frequency-domain and does not contain any vocal fold
vibration;
• durational characteristics of voicing are absent from the signal
• segmental durations are not or hardly perceivable
• subjects’ attention is drawn to amplitude envelope temporal
characteristics like syllable beats: so-called low-frequency temporal
cues.
In monotone 1-bit requantised speech, the amplitude of every sample is set
to either 0 or -1. The resulting signal is strongly degraded in the frequency-
domain and does not contain any intonational information;
• amplitude information is absent from the signal
• subjects’ attention is drawn to segment durations and the durational
variability of unvoiced and voiced intervals: so-called high-frequency
temporal cues.
In monotone sasasa-speech based on voiced and unvoiced intervals, every
unvoiced sound is replaced with a synthesised [s] and every voiced sound
with a synthesised [a]. The resulting signal does not contain any original
frequency-domain information;
• original amplitude information is absent from the signal
• segmental durations are not perceivable since voiced/unvoiced
sounds have been merged to voiced/unvoiced intervals
• subjects’ attention is drawn to cues about voice timing only.
The signal degraded sentences are unintelligible to the listeners. However,
if presented with the corresponding lexical information, listeners learn to
parse degraded speech (cf. Davis et al., 2005).

3.1 Method

3.1.1 Subjects

Our between-subject design involved three groups of ten listeners each, all
of which were native speakers of Swiss German dialects. Most of them
were students from Zurich University, some students from other Swiss
Universities. The subjects were assumed to have similar knowledge of
French and English due to school education in Switzerland: in Swiss
German primary schools, French is learned as a first and English as a
second L2. Due to their higher education, our listeners were also assumed
to have a comparable experience with French- and English-accented
Standard German. In a multilingual country like Switzerland and, in
Marie-José KOLLY & Volker DELLWO 141

particular, in Swiss Universities, opportunities for contact with L2 speakers


of German are frequent. Subjects’ age ranged from 19 to 32 years. None of
the listeners reported any significant problems with hearing or sight.

3.1.2 Material

Speech was collected from twelve speakers: six native speakers of French
and six native speakers of English (three males and three females each). All
the French speakers grew up and live in the French speaking part of
Switzerland (five in the canton of Fribourg, one in the canton of Vaud). The
English speakers grew up in the US or in Canada, one female speakers in
the UK; all of them were students or staff members of Zurich University.
Speakers’ age ranged between 23 and 56. Their self-estimated proficiency
in German ranged from B1 to B2 for the French speakers and from A1 to B2
for the English speakers (cf. Council of Europe, 2011).
Speakers read a list of 19 German sentences (cf. Appendix). Sentences
were taken from a list of Italian sentences used by Nazzi et al. (1998) and
translated to German. Before the recording, they familiarised themselves
with the material by reading the sentences aloud. Speakers were recorded
in a quiet room at Zurich University or in their respective homes with a
Fostex FR-2LE solid-state recorder (sampling rate of 48kHz, 16-bit
quantisation) and a Sennheiser clip-on MKE 2p-c microphone. If filled
pauses occurred during a sentence, speakers repeated the sentence
spontaneously or, if not, they were asked to do so. nine sentences per
speaker were chosen for each of three experimental conditions to contain
108 stimuli. We have used a different combination of sentences from each
speaker such that each of the 18 used sentences appears six times in the
experiment: three times spoken native speakers of French and three times
by native speakers of English.
Manipulated stimuli were created using Praat signal processing software
(Boersma & Weenink, 2012).6
• Noise vocoded speech was obtained by bandpass filtering each
sentence between 50 Hz and 8000 Hz. The signal was then divided
into 6 logarithmically spaced frequency bands by bandpass filtering
with cutoff frequencies at 50 Hz, 116.5 Hz, 271.4 Hz, 632.5 Hz, 1473.6
Hz, 3433.5 Hz and 8000 Hz. These cutoff frequencies were
subsequently used to filter white noise in order to obtain six noise
bands. The amplitude envelope of each speech band was extracted
by half-wave rectification and low-pass filtering at 10 Hz. Each

6
Praat scripts for delexicalisation were written by the second author and are available at
http://www.pholab.uzh.ch/leute/dellwo/software.html.
142 (How) can listeners identify the L1 in foreign accented L2 speech?

amplitude envelope was then multiplied with the corresponding noise


band and, finally, the six noise signals were added together.
• Monotone 1-bit requantised speech was obtained by first creating a
flat pitch line: every pitch point of a sentence was replaced by the
mean pitch value of the sentence. The amplitude value of each
sample was then set to 0 (for amplitude values > 0) or to -1 (for
amplitude values < 0). The quantisation rate of the signal was thus
converted to 1-bit.
• Monotone sasasa-speech was created with the Praat plug-in tool
Sasasa delexicaliser (cf. Dellwo, accepted, for a more detailed
description) and based on voiced and unvoiced intervals (cf. Fourcin
& Dellwo, 2009) instead of the method used by Ramus & Mehler
(1999). The latter constructed sasasa-speech by transforming every
consonantal interval of the speech signal to [s] and every vocalic
interval to [a]. We chose to use unvoiced and voiced instead of
consonantal and vocalic intervals and thus preserve only voice timing
characteristics from the original sound signal.

3.1.3 Procedure

Three groups of ten native Swiss German listeners were presented the 108
stimuli in a randomised order on a laptop computer. Listeners were tested
in a quiet room at university or in their own homes. Groups of ten listeners
each were presented either noise vocoded, 1-bit-requantised or sasasa-
speech over high-quality earphones. For each stimulus, the corresponding
sentence was presented visually on the computer screen about two
seconds preceding the acoustic stimulus and until the acoustic
presentation ended. Thus, subjects had access to lexical information while
listening to the delexicalised stimulus and could concentrate on the accent
cues relevant for the research question. For each stimulus listeners had to
indicate whether they had heard German with a French or an English accent
by clicking on the corresponding button, using a computer interface
created in Praat.
As a sensitivity measure we have chosen d’ from signal detection theory (cf.
Swets & Green, 1966). The measure d’ obtains the sensitivity of each
listener, eliminating response bias, where perfect sensitivity (i.e., perfect
discrimination of both types of signals) starts at a d’-value of 4 and a d’-
value of 0 indicates sensitivity at chance level.

3.2 Results
Figure 5 as well as one-sample t-tests based on d’ show that French and
English accents could be identified above chance based on 6-band noise
Marie-José KOLLY & Volker DELLWO 143

vocoded (p < 0.001) and 1-bit-requantised (p < 0.001) stimuli, but not based
on sasasa-speech.
We further computed a univariate ANOVA which shows a significant effect
between conditions (F[2, 30] = 50.58; p < 0.001). Tukey post-hoc tests show
that all group comparisons are highly significant (p < 0.001). In particular,
recognition scores were higher in 1-bit requantised than in 6-band noise
vocoded speech.
2.5
2.0
1.5
1.0
d'

0.5
0.0
−0.5
−1.0

nv 1bit sasasa

signal degradation conditions

Figure 5: Perceptual identification of a French or English accent in delexicalised German speech.


The dashed line indicates performance at chance.

3.3 Discussion
We have tested whether Swiss German listeners can distinguish French-
accented German from English-accented German when presented with
speech signals that are heavily degraded in the frequency-domain. An
alternative forced choice task was conducted with three groups of listeners,
each presented with a different type of delexicalised speech. Signal types
each contained a different type of durational characteristic. Results show
that listeners can discriminate English- from French-accented German
based on primarily temporal cues. Further, listeners’ performance depends
essentially on the type of delexicalisation applied, that is, on the type of
temporal characteristic conveyed by the particular signal.
144 (How) can listeners identify the L1 in foreign accented L2 speech?

The present experiment showed that French- and English-accented


German speech can be identified above chance in 6-band noise vocoded as
well as in 1-bit requantised speech. Sasasa-speech based on voiced and
unvoiced intervals did not allow this distinction. Primarily temporal cues
and, in particular, the absence of amplitude or even vocal fold vibration are
sufficient to identify French and English accents in German L2-speech.
The type of temporal information contained in the delexicalised stimuli
differs for each condition. In noise vocoded speech, subjects’ attention is
drawn to amplitude envelope temporal characteristics or syllable beats:
so-called low-frequency temporal cues. 1-bit requantised speech, on the
other hand, draws subjects’ attention to high-frequency temporal cues like
segment durations. Sasasa-speech based on voiced and unvoiced intervals
renders cues about voice timing only. Since 1-bit requantised speech was
better recognized in the experiment, listeners possibly rely more on
segment durations than on lower frequency (and possibly rhythmic) cues
for accent recognition when listening to French- or English-accented
German. Cues about voice timing alone are not sufficient to solve this
perceptual task.

4. General discussion and Outlook

The experiments reported in the present article show that (a) listeners can
discriminate very subtle accent distinctions and (b) the time-domain is
relevant for the recognition of such foreign accents.
Acoustic correlates of (a) were assumed to lie in segmental as well as in
prosodic aspects, since recent research stresses prosodic differences
between Swiss German dialects (cf. e.g. Leemann & Siebenhaar, 2008;
Leemann et al., 2012; Leemann, 2012). As prosodic deviances seem to be a
widely discussed feature of foreign accents, we investigated temporal and
rhythmic cues for foreign accent identification and showed that speech can
be strongly degraded in the spectral domain and still provide enough cues
for listeners to identify a French or an English accent in German sentences.
Furthermore, we have illustrated that the different types of durational cues
contained in the different types of delexicalised speech yield different
identification rates, with segment durations being the most effective cue to
the accent recognition task conducted for the present paper.
Future research will further explore the amount of frequency-domain and
time-domain information needed for listeners to recognise foreign accents.
To this end, we use different types of signal manipulations such as noise
vocoded speech with different numbers of bands. We expect these further
conditions to tell us more about the perceptual processing of foreign
accented speech and, in particular, about the possibility of identifying
foreign accents based on temporal characteristics only.
Marie-José KOLLY & Volker DELLWO 145

We expect that our research will have implications on a variety of fields


such as forensic phonetics: our aim is to better explain foreign accented
speech, which may be applied in areas like the analysis of speaker origin
(LADO) or speaker identity. The research might further contribute to the
field of L2‐acquisition where knowledge of prosody and rhythm in particular
could help learners acquire a more native-like pronunciation.

Acknowledgements

We would like to thank all our speakers and listeners for their contribution
to this article. Further we thank Stephan Schmid and Adrian Leemann
(Experiment 2) and Elke Hentschel (Experiment 1) for helpful comments on
the experiment design as well as two anonymous reviewers for their
valuable feedback on a first version of this manuscript. We also thank
Stephan Schmid for the translation of Italian sentences. Part of this work
(Experiment 2) was supported by the Swiss National Science Foundation
(SNF; grant number: 100015_135287).

Bibliography

Arvaniti, Amalia (2012): The usefulness of metrics in the quantification of speech rhythm. In
Journal of Phonetics, 40, (2), 351–373.
Atterer, M. & Ladd, R. (2004): On the Phonetics and Phonology of ‘Segmental Anchoring’ of F0.
Evidence from German. In Journal of Phonetics, 32, (2), 177–197.
Bachmann, A. (1908): [Schweizer-]Sprachen und Mundarten. In Knapp, C./Borel, M. (eds.),
Geographisches Lexikon der Schweiz. Vol. 5. Neuchâtel (Attinger), 58–76.
Bauvois, C. (1996): Parle-moi, et je te dirai peut-être d'où tu es. In Revue de Phonétique Appliquée,
121, 291–309.
Boersma, P. & Weenink D. (2012): Praat: doing phonetics by computer. (http://www.praat.org).
Boula de Mareuïl, P./Vieru-Dimulescu, B. (2006): The contribution of prosody to the perception of
foreign accent. Phonetica, 63, (4), 247–267.
Boula de Mareuïl, P., Vieru-Dimulescu, B., Woehrling, C. & Adda-Decker, M. (2008): Accents
étrangers et régionaux en français. Caractérisation et identification. In Traitement
Automatique des Langues, 49, (3), 135–163.
Bush, C. N. (1967): Some Acoustic Parameters of Speech and Their Relationships to the Perception
of Dialect Differences. TESOL Quarterly, 1, (3), 20–30.
Christen, H. (2005): 'Tour de Suisse' der Deutschschweizer Dialekte. In Forum Helveticum (ed.),
Dialekt in der (Deutsch)Schweiz – Zwischen lokaler Identität und nationaler Kohäsion. Le
dialecte en Suisse (alémanique) – entre identité locale et cohésion nationale. Lenzburg
(Forum Helveticum), 21–25.
— (2010): Was Dialektbezeichnungen und Dialektattribuierungen über alltagsweltliche
Konzeptualisierungen sprachlicher Heterogenität verraten. In Anders, C. A., Hundt, M. &
Lasch, A. (eds.), "Perceptual dialectology". Neue Wege der Dialektologie. Berlin/New York
(de Gruyter), 269–290.
146 (How) can listeners identify the L1 in foreign accented L2 speech?

Council of Europe (2011): Common European Framework of Reference for Languages: Learning,
Teaching, Assessment. (http://www.coe.int/t/dg4/linguistic/Source/Framework_EN.pdf.
Cunningham-Andersson, U. & Engstrand, O. (1987): Perceived strength and identity of foreign
accent in Swedish. In Phonetica, 46, 138–154.
Davis, M./Johnsrude, I./Hervais-Adelman, A./Taylor, K./McGettigan, C. (2005): Lexical Information
Drives Perceptual Learning of Distorted Speech: Evidence From the Comprehension of
Noise-Vocoded Sentences. Journal of Experimental Psychology, 134, (2), 222–241.
Dellwo, V. (accepted): Acoustic correlates of speech rhythm: Are consonantal and vocalic intervals
or syllables the more salient units?. To appear in: Van de Vijver, R. & Vogel, R. (eds.), Rhythm
in Phonetics, Grammar and Cognition Berlin (De Gruyter).
Flege, J. E. (1992): Speech Learning in a Second Language. In Ferguson, C. A., Menn, L. & Stoel-
Gammon, C. (eds.), Phonological Development. Models, Research, Implications. Maryland
(York Press), 565–604.
Fourcin, A. & Dellwo, V. (2009): Rhythmic classification of languages based on voice timing.
London (UCL Eprints) (http://eprints.ucl.ac.uk/15122/).
Fuchs, G./Werlen, I. (1999): Zweisprachigkeit in Biel-Bienne. Untersuchung im Rahmen des Bieler-
Bilinguismus-Barometers 1998. Im Auftrag des Forums für Zweisprachigkeit Biel-Bienne.
Bericht erstellt auf Basis der Daten des GfS-Forschungsinstituts Bern. Biel (Stiftung Forum
für die Zweisprachigkeit).
Green, D. M. & Swets, J. A. (1966): Signal detection theory and psychophysics. New York (Wiley).
Guntern, M. (2011): Erkennen von Dialekten anhand von gesprochenem Schweizerhochdeutsch. In
Zeitschrift für Dialektologie und Linguistik, 78, 155–187.
Haas, W. (1985): Sprachgeographie und Variationstheorie. In Werlen, I. (ed.), Probleme der
schweizerischen Dialektologie. 2. Kolloquium der Schweiz. Geisteswissenschaftlichen
Gesellschaft. Problèmes de la dialectologie suisse. 2e Colloque de la Société suisse des
sciences humaines. Fribourg (Editions Universitaires Fribourg), 95–108.
— (2000): Die deutschsprachige Schweiz. In: Bickel, H. & Schläpfer, R. (Hrsg.): Die viersprachige
Schweiz. Aarau/Frankfurt am Main/Salzburg (Sauerländer), 57–138.
— (2004): Die Sprachsituation der deutschen Schweiz und das Konzept der Diglossie. In: Christen,
H. (ed.), Dialekt, Regiolekt und Standardsprache im sozialen und zeitlichen Raum. Beiträge
zum 1. Kongress der Internationalen Gesellschaft für Dialektologie des Deutschen,
Marburg/Lahn 5.–8. März 2003. Wien (Praesens), 81–110.
Häcki Buhofer, A./Burger, H. (1998): Wie Deutschschweizer Kinder Hochdeutsch lernen. Der
ungesteuerte Erwerb des gesprochenen Hochdeutschen durch Deutschschweizer Kinder
zwischen sechs und acht Jahren. Stuttgart (Steiner). (= Zeitschrift für Dialektologie und
Linguistik; Beihefte 98).
Hirschfeld, U. & Trouvain, J. (2007): Teaching Prosody in German as a Foreign Language. In
Trouvain, J. & Gut, Ulrike (eds.), Non-Native Prosody. Phonetic Description and Teaching
Practice, Berlin/New York (de Gruyter), 171–187.
Hotzenköcherle, R. (1961): Zur Raumstruktur des Schweizerdeutschen. In Zeitschrift für
Mundartforschung, 28/3, 207–227.
— (1984): Die Sprachlandschaften der deutschen Schweiz. Ed. by Bigler, N. & Schläpfer, R. Aarau
etc. (Sauerländer).
Jilka, M. & Möhler, G. (1998): Intonational Foreign Accent. Speech Technology and Foreign
Language Teaching. In Proceedings of Speech Technology in Language Learning, 25.–
27.05.1998, Marholmen, Sweden, 113–116.
Kolly, M.-J. (2010): Regionale Spuren in "Français Fédéral" und "Schweizerhochdeutsch". Eine
Untersuchung im Schnittfeld von Akzent und Einstellung bei Schweizer Dialektsprechern.
Master Thesis, University of Bern.
Marie-José KOLLY & Volker DELLWO 147

— (2011): Weshalb hat man (noch) einen Akzent? Eine Untersuchung im Schnittfeld von Akzent
und Einstellung bei Schweizer Dialektsprechern. In Linguistik online, 50/6, 43–77.
— (2013): Akzent auf die Standardsprachen: Regionale Spuren in "Français Fédéral" und
"Schweizerhochdeutsch". In Linguistik online, 58/1, 37-76.
Leemann, A. (2012): Swiss German Intonation Patterns. Amsterdam/Philadelphia (Benjamins).
Leemann, A. & Siebenhaar, B. (2008): Perception of Dialectal Prosody. In Proceedings of
Interspeech 2008, Brisbane 22.–26.9.2008, 524–527.
Leemann, A., Dellwo, V., Kolly, M.-J. & Schmid, S. (2012): Rhythmic variability in Swiss German
dialects. In Proceedings of Speech Prosody, 21.-25.5.2012, Shanghai, PRC.
Lloyd James, A. (1929): Historical Introduction to French Phonetics. London (ULP).
Missaglia, F. (2007): Prosodic Training for Adult Italian Learners of German. The Contrastive
Prosody Method. In Trouvain, J./Gut, U. (eds.), Non- Native Prosody. Phonetic Description
and Teaching Practice, Berlin/New York (de Gruyter). 236– 258.
Muller, N. (1998): "L’allemand, c’est pas du français!". Enjeux et paradoxes de l’apprentissage de
l’allemand. Neuchâtel/Lausanne (Institut de Recherche et de Documentation
Pédagogique/Loisirs et Pédagogie).
Ramus, F. & Mehler, J. (1999): Language identification with suprasegmental cues: A study based
on speech resynthesis. In Journal of the Acoustical Society of America, 105, (1), 512–521.
Ramus, F./Nespor, M. & Mehler, J. (1999): Correlates of linguistic rhythm in the speech signal. In
Cognition, 73, 265–292.
Shannon, R. V., Zeng, F.-G., Kamath, V., Wygonski, J. & Ekelid, M. (1995): Speech recognition with
primarily temporal cues. In Science, 270, 303–304.
Siebenhaar, B. (1994): Regionale Varianten des Schweizerhochdeutschen. Zur Aussprache des
Schweizerhochdeutschen in Bern, Zürich und St. Gallen. In Zeitschrift für Dialektologie und
Linguistik, 61, 31–65.
Sprachatlas der deutschen Schweiz (SDS). Ed. by Hotzenköcherle, R. et al. 1962–2003. Bern (I-VI),
Basel: Francke (VII-VIII).
Tajima, K./Port, R./Dalby, J. (1997): Effects of temporal correction on intelligibility of foreign-
accented English. In Journal of Phonetics, 25, 1–24.
The International Phonetic Association (1999/2003): Handbook of the International Phonetic
Association. A Guide to the Use of the International Phonetic Alphabet. Cambridge
(Cambridge University Press).
Van Els, T./De Bot, K. (1987): The role of intonation in foreign accent. In Modern Language Journal,
71, (2), 147–155.
Werlen, I. (ed.)(2000): Der zweisprachige Kanton Bern. Bern/Stuttgart/Wien (Haupt).
White, L./Mattys, S. L./Wiget, L. (2012): Language categorization by adults is based on sensitivity
to durational cues, not rhythm class. In Journal of Memory and Language, 66, (4), 665–679.
Wiget, L., White, L, Schuppler, B., Grenon, I., Rauch, O., Mattys, S. L. (2010): How stable are
acoustic metrics of contrastive speech rhythm? In Journal of the Acoustical Society of
America, 127, 1559–1569.
148 (How) can listeners identify the L1 in foreign accented L2 speech?

Appendix

01 Die Frau des Apothekers weiss immer, was sie will.


02 Das Theater hat viele neue Aufführungen geplant.
03 Er wollte sich seiner Schwächen einfach nicht bewusst werden.
04 Der öffentliche Verkehr lässt viel zu wünschen übrig.
05 Die schlechte Zahlungsbilanz lässt mich nicht zur Ruhe kommen.
06 Die Eltern geben ihm keine finanzielle Unterstützung.
07 Der starke Frühlingsregen hat grossen Schaden angerichtet.
08 Der schnellste Zug ist immer noch der ICE.
09 Der Wiederaufbau der Stadt wird sehr lange dauern.
10 Das Bildungsministerium hat den einfachsten Weg gewählt.
11 Diese Konditorei macht ausgezeichnete Kuchen.
12 Dieses Geschäft bietet sehr preisgünstige Ware an.
13 Sie haben die Wahrheit erst entdeckt, als er auspackte.
14 Für meine Mannschaft wird der Sieg ein Kinderspiel sein.
15 Die Meinungsumfragen sagen einen Sieg der Rechten voraus.
16 Die Strassen der Innenstadt wurden von der Polizei gesperrt.
17 Ein berühmtes Bild wurde aus dem Kunsthaus gestohlen.
18 Der Müssiggang ist bekanntlich aller Laster Anfang.
19 Frei schreiben zu können ist ein grosser Vorteil.
Travaux neuchâtelois de linguistique, 2013, 59, 149-166

Rhythmische Variabilität bei synchronem


Sprechen und ihre Bedeutung für die forensische
Sprecheridentifizierung

Daniel FRIEDRICHS und Volker DELLWO


Phonetisches Laboratorium der Universität Zürich

Humans are able to speak in synchrony with each other. The present study
investigated whether four temporal correlates of speech rhythm (%V, nPVI-C, nPVI-V,
nPVI-CV) adapt when speaking in synchrony with a recording. The experimental
setting consisted of three conditions: Eight participants read three sentences out
loud (read), four of them were asked to speak in synchrony (sync) with the same
sentences recorded by the four others (target). Correlation analysis was carried out
between the rhythmic measurements of the sync condition and the two others
(read/target). Results revealed that there are typically strong significant correlations
between speech rhythm of the read and synchronous speech. The impact on speaker
identification, in particular under forensic circumstances, is discussed.

1. Einführung

1.1 Forensische Sprecheridentifizierung


Die Grundannahme der forensischen Sprecheridentifizierung ist, dass die
Möglichkeit besteht, einen Sprecher anhand idiosynkratischer oder
biometrischer Informationen in seiner Stimme zu identifizieren (Nolan,
1997; Dellwo et al., 2007). Diese Annahme wird durch alltägliche
Erfahrungen unterstützt. So ist es für einen Menschen z.B. recht einfach,
einen Anrufer (auch ohne visuellen Kontakt) bereits anhand eines einfachen
“Hallo“ zu erkennen. Bei dem Versuch einen Sprecher zu identifizieren,
nahmen über die letzten Jahre spektrale Charakteristika der Stimme die
entscheidende Rolle ein (Nolan, 1991; McDougall, 2007a; Nolan et al.,
2009). Beispiele für diese messbaren Erkennungsmerkmale sind die
Grundfrequenz (f0) oder die Formantfrequenzen, welche in den
Resonanzspektren der menschlichen Stimme entstehen. Dass in deren
Ausprägung sprecherspezifische Merkmale repräsentiert werden können,
erscheint durchaus nachvollziehbar, wenn man bedenkt, dass sie in enger
Verbindung mit der anatomischen Beschaffenheit eines Sprechers stehen
dürften. So sollte gerade die Kombination von anatomisch spezifischen
Eigenschaften, wie z.B. die Grösse des Kehlkopfes oder die Länge des
Vokaltraktes, verständlicherweise auch zu einer höchst individuellen
Stimme führen. Nun wurde jedoch bereits gezeigt, dass die spektralen
Charakteristika dennoch einer hohen Variabilität unterliegen können
150 Rhythmische Variabilität bei synchronem Sprechen

(Dellwo et al., 2007). Das bedeutet Stimmen können nicht nur zwischen
unterschiedlichen Sprechern (Inter-Sprecher-Variabilität), sondern auch
für einen einzelnen Sprecher (Intra-Sprecher-Variabilität) unterschieden
werden und somit differierende Ergebnisse in einer spektralen Analyse
hervorbringen. Zur Veranschaulichung können einfache Beispiele dienen:
Der emotionale Zustand eines Sprechers (z.B. Angst, Wut etc.) oder eine
einfache physische Veränderung (z.B. beim Sprechen mit einem Stift
zwischen den Lippen) kann bereits signifikante Abweichungen hervorrufen.
Da Aufnahmen von zu identifizierenden Personen (z.B. Tatverdächtigen)
nicht immer unter optimalen und vergleichbaren Bedingungen entstehen,
werden schnell die Schwächen einer einseitigen, spektralen
Sprecheridentifizierung erkennbar. In den vergangenen Jahren wurden
daher Versuche unternommen, die Methoden der Sprecheridentifizierung
zu verbessern. Es hat z.B. Bemühungen gegeben, Regelmässigkeiten und
Zusammenhänge in der Variabilität (Nolan et al., 2009) und dynamische und
statische Darstellungsformen der spektralen Stimmcharakteristika zu
finden (McDougall, 2007a, 2007b).
Die hier präsentierte Studie verfolgt den Ansatz, die forensische
Sprecheridentifizierung um den Parameter Zeit zu erweitern. Hierzu sollen
vokalische und konsonantische Intervalle von Äusserungen darauf
untersucht werden, ob sie spezifische Informationen über einen Sprecher
transportieren. Diese Überlegung ist durchaus begründet. Die Produktion
von Sprache geschieht über eine komplexe motorische Steuerung einzelner
Muskelbewegungen durch das Gehirn. Somit besteht eine Analogie zur
Steuerung anderer Muskelbewegungen, wie z.B. der motorischen Kontrolle
über Arme und Beine. Und eben diese Bewegungsabläufe von Gliedmassen
können in ihrer zeitlichen Abfolge für einen Menschen spezifisch sein
(Cunado et al., 2003; Foster et al., 2003). Von dieser Analogie ausgehend
besteht Anlass zu der Vermutung, dass es sich ganz ähnlich mit der
ebenfalls muskulär gesteuerten Produktion einer Stimme verhalten könnte.
Weitere Hinweise darauf finden sich in den Arbeiten von McDougall (2007a,
2007b). Auch sie erkennt den Zusammenhang von muskulären
Körperbewegungen und artikulatorischer Produktion von Sprache. Ferner
kann er sogar zeigen, dass die muskulär initiierte und gesteuerte
Artikulation einen Einfluss auf die zeitliche Aussteuerung der
Formantfrequenzen haben muss. Dellwo et al. (2009) konnten zudem
beobachten, dass beispielsweise der prozentuale Anteil einer vokalischen
Äusserung (%V, nach Ramus et al., 1999) selbst bei der Imitation einer
fremden Stimme relativ konstant zu bleiben scheint. Somit gibt es einen
konkreten Hinweis darauf, dass ein auf zeitlichen Intervallen basierendes
Mass eine wichtige Rolle für die Sprecheridentifizierung spielen könnte. In
dieser Studie sollen daher suprasegmentale Zusammenhänge von Sprache
im Hinblick auf ihre temporale Spezifität untersucht werden.
Daniel FRIEDRICHS & Volker DELLWO 151

Um eine temporale Veränderung der natürlichen Stimme herbeizuführen,


bietet sich das synchrone Sprechen mit Audioaufnahmen von Zielsprechern
an. Hierdurch kann effektiv Einfluss auf die zeitliche Konstruktion des
Stimmsignals genommen werden.

1.2 Synchrones Sprechen


Menschen können ohne grosse Mühe synchron sprechen oder singen. Die
einfachste Form synchronen Sprechens wird erzeugt, wenn zwei Sprecher
einen Text gemeinsam vorlesen. In einem dynamischen Prozess, bei dem es
keine eindeutige “leader-follower-relation“ gibt (Cummins, 2009), passen
sich hierbei beide Sprecher einander zeitlich bis zu einem hohen Grad an
(Cummins, 2003; Krivokapic, 2007). Die experimentell ermittelte
Asynchronität bewegt sich in derartigen Fällen in einer Spanne von lediglich
9 bis 70ms (Crystal, 1982; Cummins, 2002). Auch ohne Übung und
Vertrautheit mit dem Text ist die Verzögerung nicht wesentlich grösser
(Cummins, 2003). Obwohl die menschliche Stimme höchst individuell ist,
scheint sie somit auch überaus anpassungsfähig zu sein. Doch wie weit
reicht diese Anpassungsfähigkeit? Es stellt sich die Frage, ob sich in der
menschlichen Stimme auch bei einer derart starken Angleichung noch
zeitliche Merkmale finden lassen, die auf einen Sprecher zurückzuführen
sind. Um dieser Frage nachzugehen, wird die Sprechersynchronisierung
nicht als dynamischer Prozess, sondern als einseitiger Anpassungsversuch
untersucht. Dies kann am einfachsten durch die Synchronisierung mit einer
Aufnahme erfolgen. Auch wenn bereits experimentell gezeigt werden
konnte, dass mit einer Aufnahme ein sehr hoher Grad an Synchronität
erreicht werden kann (Cummins, 2009), muss darauf hingewiesen werden,
dass diese Methode einige Schwierigkeiten für die Versuchspersonen birgt,
da im Gegensatz zum dynamischen Prozess kein Entgegenkommen eines
Sprechpartners zu erwarten ist (Poore & Ferguson, 2008). Um adäquates
Material zu generieren, muss somit ein Einüben gestattet sein.
Da bei der vorliegenden Studie Probanden versucht haben, sich mit einer
Aufnahme zu synchronisieren, handelt es sich ferner um ein Experiment,
das Aspekte des begleitenden Nachsprechens einschliesst, welches in der
Forschung als shadowing bezeichnet wird (für einen genaueren Überblick
und eine umfangreiche Einführung siehe Marslen-Wilson, 1973). Beim
shadowing wird der Versuch unternommen, einem auditiven Stimulus mit
der eigenen Stimme als Schatten zu folgen. Wie schon frühe Studien
zeigen, ist dies für kognitiv gesunde Probanden ohne Probleme möglich
(Alekin, 1962; Porter & Lubker 1982). Um nun bei synchronem Sprechen
Rückschlüsse auf zeitliche Anpassungsphänomene festzustellen, bietet
sich zudem die Einbeziehung von Forschungsergebnissen auf dem Feld der
Sprachrhythmusforschung an. Die hier dargebrachten akustischen
Rhythmuskorrelate beruhen nämlich allesamt auf zeitlichen Intervallen.
152 Rhythmische Variabilität bei synchronem Sprechen

1.3 Akustische Rhythmuskorrelate


Die in dieser Studie untersuchten Rhythmuskorrelate beruhen auf den
Forschungsarbeiten von Ramus et al. (1999), Grabe und Low (2002) und
Barry et al. (2003). Nachdem zu Beginn der 1990er-Jahre die
wissenschaftliche Diskussion über die Einteilung von Sprachen in
Rhythmusklassen mit dem vorläufigen Ergebnis endete, dass man keine
Möglichkeiten mehr sah, den Rhythmus einer Sprache über das
Sprechsignal zu messen und zu beschreiben sowie die allgemeine
Annahme herrschte, Rhythmus müsse ein rein perzeptives Phänomen sein,
dass mit bisherigen Beobachtungen nicht zu erklären sei (Auer, 1993),
brachte die Berechnung auf Grundlage neuer empirischer Methoden von
akustischen Rhythmuskorrelaten wieder Bewegung in die
Sprachrhythmusforschung. In Anlehnung an Dauer (1987) verwarfen Ramus
et al. (1999) das Konzept, welches Akzent und Silbendauer für den
Sprachrhythmus zugrunde legte und präsentierten ein rein phonetisches
Modell. Grundlage hierfür war die von Roach (1982) formulierte Annahme,
dass der Eindruck von Rhythmus durch Vokalreduktion und die Varianz der
Silbenstruktur in einer Sprache entstehe. So erklären sich die von Ramus
et al. (1999) ermittelten akustischen Rhythmuskorrelate (%V, ∆C, ∆V),
welche konsonantische und vokalische Intervalle ins Zentrum der
Beobachtung rücken.
Grabe und Low (2002) präsentieren nur wenig später Korrelate, welche
ebenfalls auf der Segmentierung konsonantischer und vokalischer
Intervalle beruhen und deren Dauer berücksichtigen, indem sie einen
paarweisen Index für deren Variabilität (rPVI) berechnen. Dieses “rohe”
Variabilitätsmass (r für Engl. raw = roh) wird von ihnen ferner für die
Sprechgeschwindigkeit normalisiert (nPVI) und kann sowohl für
konsonantische (nPVI-C) als auch für vokalische Intervalle (nPVI-V)
berechnet werden.
Barry et al. (2003) schlagen wenig später ein weiteres PVI-Korrelat vor,
welches sowohl die vokalischen als auch konsonantischen Intervalle
einbezieht (nPVI-CV). Dies sei nötig, um dem auditiven Effekt Rechnung zu
tragen, der bei der Kombination beider Lautklassen während des
Sprechaktes entstünde.
Für die hier präsentierte Studie wurden aus diesen Forschungsarbeiten vier
Rhythmuskorrelate ausgewählt, welche für die Sprechgeschwindigkeit
normalisiert wurden (nPVI-Masse) oder sich ihr gegenüber als relativ
resistent erwiesen haben (%V). Korrelate, die nicht in diese Kategorien
fallen (dies sind z.B. ∆C, ∆V, rPVI etc.), wurden nicht berücksichtigt, da ihre
Ergebnisse auf keiner einheitlichen Basis beruhen würden, d.h. die
vorgelesenen Sätze der Versuchspersonen in ihrer Dauer natürlich von der
Dauer der Zielsätze, mit denen es sich zu synchronisieren galt, abweichen.
Daniel FRIEDRICHS & Volker DELLWO 153

Folgende vier Rhythmuskorrelate wurden daher im Rahmen dieser Studie


untersucht:

• %V (Ramus et al., 1999), der prozentuale vokalische Anteil


einer Äußerung.

• nPVI-C, nPVI-V (Grabe & Low, 2002) und nPVI-CV (Barry et al.,
2003), paarweiser Index für die Variabilität der Dauer von
vokalischen (V) und konsonantischen Intervallen (C), welcher
für die Sprechgeschwindigkeit normalisiert wurde. Dieser wird
folgendermassen berechnet:

 m−1 dk − dk+1 
nPVI = 100 ×  ( m−1)
 k=1 ( dk − dk+1 ) 2 

m steht hierbei für die Anzahl der Intervalle und d stellt die Dauer des
k-ten Intervalls dar.

2. Daten und Methoden

2.1 Sprecher
Für das Experiment wurden zwei Gruppen von insgesamt 8 Sprechern
untersucht. Die erste Gruppe (Sprecher 1-4; je zwei weibliche und
männliche Probanden) im Alter von 20-30 Jahren wurde aus dem Korpus
des Phonetischen Laboratoriums der Universität Zürich anhand hoher
differierender %V-Werte ausgewählt. Um eine möglichst hohe Variabilität
der Zielwerte zu erreichen, wurden zwei Deutsch-Muttersprachler
(Sprecher 1 und 2) und zwei Italienisch-Muttersprachler (Sprecher 3 und 4)
mit hohem Deutsch-L2-Niveau ausgesucht. Durch diese Vorauswahl sollte
der Einfluss der Synchronisierung auf zumindest ein akustisches
Rhythmusmass besser beobachtet werden können. %V wurde gewählt, da
es sich in den zuvor präsentierten Studien (z.B. Dellwo et al., 2009) als ein
besonders resistenter Faktor gegenüber externen Einflüssen, wie
beispielsweise der Sprechgeschwindigkeit, gezeigt hatte. Die zweite
Gruppe von Probanden (Sprecher 5-8; eine weibliche Probandin und drei
männliche Probanden) im Alter von 20-25 Jahren waren durchweg Deutsch-
Muttersprachler (Sprecher 6-7 Standarddeutsch, 5 und 8
Schweizerdeutsch).
154 Rhythmische Variabilität bei synchronem Sprechen

2.2 Material
Alle Versuchspersonen wurden gebeten, die folgenden drei Sätze im
eigenen Rhythmus und ohne jegliche Vorgaben vorzulesen:
(1) Die Frau des Apothekers weiss immer was sie will.
(2) Das Theater hat viele neue Aufführungen geplant.
(3) Er wollte sich seiner Schwächen einfach nicht bewusst werden.
Die Sprecher der zweiten Gruppe mussten sich nach einer kurzen Pause mit
den Versionen jedes einzelnen Satzes der Sprecher 1-4 (i.e., Gruppe 1)
synchronisieren. Durch die Berechnung der akustischen
Rhythmuskorrelate erhielten wir drei unterschiedliche Konditionen für die
spätere Auswertung. Die Ergebnisse der vorgelesenen Versionen von
Sprecher 5-8 dienten als Ausgangswerte (read), die der gelesenen Sätze
von Sprecher 1-4 als Zielwerte (target) und die Messwerte der
Synchronisierungsversuche von Sprecher 5-8 als Vergleichswerte (sync).

2.3 Versuchsablauf
Die Aufnahmen wurden in einer Audiometriekabine des Phonetischen
Laboratoriums der Universität Zürich durchgeführt. Die Synchronsprecher
(sync) bekamen während der zweiten Phase des Experiments die
Zielsprecher (target) über Kopfhörer als Stimuli zu hören. Die Probanden
benutzten hierzu halboffene Kopfhörer, um die eigene Stimme während der
Einspielungen noch hören zu können. Dieses Verfahren sollte eine
möglichst hohe Sensibilisierung der Sprachproduktion ermöglichen. Da
sowohl die eigene Stimme als auch die Zielstimme während des
Experimentes akustisch wahrnehmbar waren, bestand eine grössere
Chance, während des Versuches eine Asynchronität zu korrigieren.
Ferner wurde jeder Satz eines Zielsprechers (target) fünf mal eingespielt.
Eingeleitet wurde er von drei 1kHz-Tönen im gleichbleibenden Abstand von
500ms. Der erste dieser fünf Stimuli diente zur Orientierung und musste
noch nicht synchronisiert werden. Für die Auswertung wurde später stets
der letzte erfolgreiche Synchronisierungsversuch verwendet, da durch den
mehrmaligen Versuch bzw. durch die Einübung ein höherer Grad an
Synchronität gegeben war. Lediglich in zwei Fällen musste die dritte, in
einem Fall die zweite Aufnahme verwendet werden, da sich der Proband
entweder versprochen oder den Einsatz verpasst hatte. Somit ergab sich
ein Korpus von 24 gelesen Sätzen (8x3 read-Versionen) und 48 synchron
gesprochenen Sätzen (4x4x3 sync-Versionen). Insgesamt dauerte das
Experiment ungefähr 14 Minuten, so dass eine Ermüdung oder das
Nachlassen der Konzentration der Versuchspersonen weitgehend
ausgeschlossen werden konnte.
Daniel FRIEDRICHS & Volker DELLWO 155

2.4 Aufbereitung der Daten


Die Daten wurden mit der Audioproduktionssoftware Pro Tools
(www.avid.com) auf ein bzw. zwei Kanälen aufgenommen. Die
Segmentierung der einzelnen Sätze in vokalische und konsonantische
Intervalle erfolgte in Praat (www.praat.org) manuell durch den ersten Autor.
Vokal- und Konsonantencluster wurden jeweils zu vokalischen bzw.
konsonantischen Einheiten zusammengezogen, dessen Dauern dann
gemessen werden konnten. Dargestellt wird der Segmentierungsprozess in
Abbildung 1.

Abb. 1: Segmentierung des Satzfragments "Er wollte sich seiner Schwächen" in konsonantische
und vokalische Intervalle (c-v). Für die Bearbeitung wurde das Programm Praat (www.praat.org)
verwendet.

2.5 Statistische Auswertung


Auf Grundlage der Dauern der vokalischen und konsonantischen Intervalle
konnten die akustischen Rhythmusmasse berechnet werden. Mit Hilfe von
Korrelationsanalysen ist es daraufhin möglich, den Grad des linearen
Zusammenhangs der einzelnen Konditionen darzustellen. Sollte eine
starke Korrelation der Ausgangswerte (read) und Synchronisierungswerte
(sync) festgestellt werden, während die Korrelation zwischen den
Zielwerten (target) und den Synchronisierungswerten (sync) nur schwach
ist, könnte dies bedeuten, dass jenes untersuchte Rhythmusmass an den
Sprecher gebunden ist. Aus diesem Grund lohnt sich ebenfalls eine
sprecherspezifische Analyse der Messwerte, denn in diesem Fall müssten
die Werte für das jeweilige Rhythmuskorrelat bei der Synchronisierung
eines einzelnen Satzes eine kleinere Streuung zeigen als die Zielwerte.
156 Rhythmische Variabilität bei synchronem Sprechen

Sollte eine starke Korrelation der Synchronisierungswerte (sync) und


Zielwerte (target) ermittelt werden, wäre die Betrachtung ebenfalls
sinnvoll. Die Streuung der Messwerte müsste dann (bei einer perfekten
Anpassung) genau jener der Gruppe der Zielsprecher entsprechen.

3. Ergebnisse

Auf den ersten Blick zeigt sich eine randomisierte Verteilung der
Messwerte. Für alle untersuchten Rhythmuskorrelate (%V, nPVI-C, nPVI-V,
nPVI-CV) ist zunächst kein einhaltliches Muster erkennbar. Bei der
Synchronisierung können die Werte konstant bleiben, sich einem Zielwert
annähern oder sich sogar (scheinbar) unabhängig von Ausgangswert (read)
und Zielwert (target) verändern. Die graphische Darstellung gibt hierüber
einen schnellen und einfachen Überblick. In den Abbildungen 2-5 sind alle
Messwerte für die drei Konditionen (read/sync/target) ablesbar. Die
Relation gibt hierbei das jeweilige Sprecherpaar an, d.h. 51 steht
beispielsweise für den Synchronisierungsversuch von Sprecher 5 mit
Sprecher 1. Als Referenz zur Synchronisierung (sync) ist immer der
Ausgangswert (read) und Zielwert (target) angegeben.
Daniel FRIEDRICHS & Volker DELLWO 157

Abb. 2: Messwerte für %V

Korrelationsanalysen konnten allerdings zeigen, dass bei jedem der vier


untersuchten Rhythmuskorrelate eine signifikante Korrelation sowohl
zwischen Ausgangs- und Synchronisierungswert (read/sync) als auch Ziel –
und Synchronisierungswert (target/sync) besteht. Die Korrelation der
Ausgangswerte (read) und der Synchronisierungswerte (sync) ist hierbei
158 Rhythmische Variabilität bei synchronem Sprechen

jedoch stark, während lediglich eine schwache bis mittlere Korrelation der
Zielwerte (target) mit den Synchronisierungswerten (sync) berechnet
werden konnte. In Tabelle 1 sind die Ergebnisse der Analyse aufgelistet.

Abb. 3: Messwerte für nPVI-C


Daniel FRIEDRICHS & Volker DELLWO 159

Abb. 4: Messwerte für nPVI-V

Besonders gross ist die Abweichung im Fall der Messungen des


prozentualen vokalischen Anteils. Die Untersuchung der drei Konditionen
für %V zeigt zwischen Ausgangswerten (read) und
Synchronisierungswerten (sync) eine besonders starke Korrelation
(r=0.809), während die Korrelation zwischen Zielwerten (target) und
160 Rhythmische Variabilität bei synchronem Sprechen

Synchronisierungswerten (sync) verhältnismässig schwach ist (r=0.296).


Das Bestimmtheitsmass spiegelt dieses Ergebnis wider und entspricht
r2=0.654 respektive r2=0.088. Die starke Korrelation von Ausgangswerten
(read) und Synchronisierungswerten (sync) und die schwache Korrelation
von Synchronisierungswerten (sync) und Zielwerten (target) zeigt sich in
Abbildung 6 deutlich.

Abb. 5: Messwerte für nPVI-CV


Daniel FRIEDRICHS & Volker DELLWO 161

Akustisches
Rhythmuskorrelat r (sync/read) r² (sync/read) Sig. (sync/read)
%V 0.809 0.654 p<0.001
nPVI-C 0.609 0.371 p<0.001
nPVI-V 0.65 0.423 p<0.001
nPVI-CV 0.828 0.686 p<0.001

Akustisches r² Sig.
Rhythmuskorrelat r (sync/target) (sync/target) (sync/target)
%V 0.296 0.088 p=0.041
nPVI-C 0.383 0.147 p=0.007
nPVI-V 0.367 0.135 p=0.010
nPVI-CV 0.484 0.234 p<0.001
Tab. 1: Ergebnisse der Korrelationsanalysen für die vier untersuchten Rhythmuskorrelate

Ferner ist für %V in vielen Fällen eine verhältnismässig enge Verteilung


(Streuung) der Messwerte der Synchronisierungsversuche erkennbar. Dabei
können diese jedoch auch deutlich vom Ausgangswert abweichen. Ein Blick
auf die Interquartilabstände der synchronisierten Versionen von Sprecher 5
verdeutlich diese Beobachtung (siehe Abb. 7).
Die PVI-Rhythmusmasse nPVI-C und nPVI-V zeigen ebenfalls eine starke
Korrelation von Ausgangs- und Synchronisierungswerten und eine
schwache Korrelation von Ziel- und Synchronisierungswerten (siehe Tab.
1). Die graphische Darstellung vermag in diesen Fällen dieses Ergebnis
zwar anzudeuten, jedoch nicht so deutlich wie im Fall von %V. Abbildung 8
verdeutlicht am Beispiel von nPVI-V diese Beobachtung.

Abb. 6: Korrelation der %V-Werte für die Kombinationen read/sync (links) und target/sync.
162 Rhythmische Variabilität bei synchronem Sprechen

Abb. 7: Boxplots der Verteilung der Messwerte für %V bei Sprecher 5 für die Sätze 1-3 in allen drei
Konditionen (read/sync/target)

Die PVI-Rhythmusmasse nPVI-C und nPVI-V zeigen ebenfalls eine starke


Korrelation von Ausgangs- und Synchronisierungswerten und eine
schwache Korrelation von Ziel- und Synchronisierungswerten (siehe Tab.
1). Die graphische Darstellung vermag in diesen Fällen dieses Ergebnis
Daniel FRIEDRICHS & Volker DELLWO 163

zwar anzudeuten, jedoch nicht so deutlich wie im Fall von %V. Abbildung 8
verdeutlicht am Beispiel von nPVI-V diese Beobachtung.

Abb. 8: Korrelation der nPVI-V-Werte für die Kombinationen read/sync (links) und target/sync

Für das Rhythmuskorrelat nPVI-CV wurde eine signifikante Korrelation mit


p<0.001 von sowohl Ausgangs- als auch Zielwerten mit den
Synchronisierungswerten berechnet. Die stärkere Korrelation von
Ausgangs- und Synchronisierungswerten (read/sync) lässt sich für dieses
Rhythmuskorrelat hingegen wieder mittels der graphischen Darstellung
(Abb. 9) gut erkennen.

Abb. 9: Korrelation der nPVI-CV-Werte für die Kombinationen read/sync (links) und target/sync
164 Rhythmische Variabilität bei synchronem Sprechen

4. Diskussion

Es konnte eine starke Korrelation von Ausgangs- und


Synchronisierungswerten (read/sync) und eine schwache bis mittlere
Korrelation von Ziel- und Synchronisierungswerten (target/sync) für die
Rhythmuskorrelate %V, nPVI-C, nPVI-V und nPVI-CV berechnet werden.
Dies ist ein Indiz dafür, dass diese vier Rhythmusmasse im Wesentlichen
von der eigenen Sprache abhängig sein könnten, obgleich die zeitliche
Veränderung des Sprachflusses ebenfalls einen Effekt auf die ermittelten
Werte zu haben scheint, wie am Rhythmuskorrelat nPVI-CV deutlich wurde.
Die Analyse einzelner Sprecherdaten lässt ferner vermuten, dass das
Spektrum der erreichbaren Werte jedoch sprecherspezifisch limitiert ist. So
konnte beispiesweise für %V bei den Synchronisierungsversuchen eine
geringe Streuung der Messwerte (kleinere Interquartilabstände) gezeigt
werden, während die Streuung der Zielwerte in fast allen Fällen grösser war
(vgl. hierzu Abb. 2 und vor allem Abb. 7).
Aufgrund der kleinen Datenmenge kann an dieser Stelle noch nicht mit
Sicherheit behauptet werden, dass es sich um weitestgehend
sprecherspezifische Rhythmusmasse handelt. Die Ergebnisse lassen
allerdings weitere Experimente zur rhythmischen Variabilität eines
Sprechers als sinnvoll erscheinen.
Dass die Messwerte trotz des Hinweises auf die mögliche
Sprechergebundenheit (durch die hohen Korrelationswerte) nicht konstant
bleiben (vgl. Abb. 2-5), könnte ein Indiz für eine Intra-Sprecher-Variabilität
der zeitlichen Intervalle sein. D.h. ein Sprecher könnte selbst ohne dies
anzustreben und ohne externe Einflüsse variierende konsonantische und
vokalische Intervalle und damit unterschiedliche Messwerte erzeugen.
Auch die bei Sprecher 5 beobachtete Veränderung der %V-Messwerte
während der Synchronisierung auf ein einheitliches Niveau könnte mit
dieser temporalen Intra-Sprecher-Variabilität in Kombination mit dem evtl.
sprecherspezifischen Charakter von %V erklärt werden.
Zu beachten ist im Rahmen der hier präsentierten Studie ferner, dass
Ausgangs- und Zielwerte für einige Rhythmuskorrelate sehr ähnlich waren.
Aus diesem Blickwinkel erscheinen hohe Korrelationskoeffizienten
natürlich in einem anderen Licht.
Sollten sich die hier gemachten Ergebnisse in weiteren Versuchen jedoch
bestätigen, könnten die untersuchten Rhythmuskorrelate zur
Identifizierung oder Unterscheidung von Personen herangezogen werden.
Da hierbei die Intra-Sprecher-Variabilität scheinbar berücksichtigt werden
muss, wäre es allerdings notwendig, über ausreichend grosses
Vergleichsmaterial zu verfügen. Ferner müssten die Aufnahmen den
identischen Inhalt haben, da natürlich unterschiedliche Lautsequenzen
differierende Messwerte erzeugen würden. Wäre dies gewährleistet,
Daniel FRIEDRICHS & Volker DELLWO 165

könnten mit Hilfe von Korrelationsanalysen mehrere Aufnahmen verglichen


werden, um herauszufinden, ob es sich um identische oder
unterschiedliche Sprecher handelt. Sollten sich die Werte eines
Rhythmuskorrelates stark unterscheiden und ggf. sogar nicht signifikant
korrelieren, dürfte dies dazu führen, dass eine Übereinstimmung eines
Sprechers bei zwei oder mehreren Aufnahmen mit hoher
Wahrscheinlichkeit ausgeschlossen werden kann. Mit dieser Methode
könnten beispielweise Personen, welche auf Grundlage einer
Audioaufnahme (z.B. eines Telefongesprächs) des Begehens einer Straftat
verdächtig sind, entlastet werden. Denkbar wäre in diesem
Zusammenhang ferner auch die Kombination mehrerer geeigneter
Rhythmusmasse.

Bibliographische Angaben

Alekin, RO, Klaas, Y.A, Christovich, LA (1962): Human reaction time in the copying of aurally
perceived vowels. In: Soviet physics: Acoustics 8, (1), 17ff.
Auer, P. (1993): Is a rythm-based typology possible? A study of the role of prosody in phonological
typology. KontRI Working Paper, 21.
Barry, W.J., Andreeva, B., Russo, M., Dimitrova, S., Kostadinova, T. u. a. (2003): Do rhythm
measures tell us anything about language type. In: Proceedings of the 15th ICPhS
Barcelona, 2693-2696.
Cummins, F. (2002): On synchronous speech. In: Acoustic Research Letters Online, 3, (1), 7-11.
— (2003): Practice and performance in speech produced synchronously. In: Journal of Phonetics,
31, (2), 139-148.
— (2009): Rhythm as entrainment: The case of synchronous speech. In: Journal of Phonetics, 37,
(1), 16-28.
Cunado, D., Nixon, M.S., Carter, J.N. (2003): Automatic extraction and description of human gait
models for recognition purposes. In: Computer Vision and Image Understanding, 90, (1), 1-
41.
Crystal, T.H. (1982): House, A.S.: Segmental durations in connected speech signals: Preliminary
results. In: The journal of the acoustical society of America, 72, 705-716.
Dauer, R.M. (1987): Phonetic and phonological components of language rhythm. In: Proceedings of
the XIth International Congress of Phonetic Sciences Tallinn, Bd., 5, 447-450.
Dellwo, V., Huckvale, M., Ashby, M. (2007): How is individuality expressed in voice? An introduction
to speech production and description for speaker classification. In: Speaker Classification I,
S. 1-20.
Dellwo, V., Ramyead, S., Dankovicova, J. (2009): The influence of voice disguise on temporal
character- istics of speech. Abstract presented at the annual IAFPA meeting 2009,
Cambridge/UK.
Grabe, E., Low, E.L. (2002): Durational variability in speech and the rhythm class hypothesis. In:
Papers in laboratory phonology, 7, 515-546.
Foster, J.P., Nixon, M.S., Prügel-Bennett, A. (2003): Automatic gait recognition using area-based
metrics. In: Pattern Recognition Letters, 24, (14), 2489-2497.
166 Rhythmische Variabilität bei synchronem Sprechen

Krivokapic, J. (2007): Prosodic planning: Effects of phrasal length and complexity on pause
duration. In: Journal of phonetics, 35, (2), 162-179.
Marslen-Wilson, W. (1973): Linguistic structure and speech shadowing at very short latencies. In:
Nature, 244(5417), 522-523.
McDougall, K. (2007a): Dynamic features of speech and the characterization of speakers: Towards
a new approach using formant frequencies. In: International Journal of Speech Language
and the Law, 13, (1), 89-126.
— (2007b): Dynamic features of speech and the characterization of speakers: Towards a new
approach using formant frequencies. In: International Journal of Speech Language and the
Law, 13, (1), 89-126.
Nolan, F. (1991): Forensic phonetics. In: Journal of Linguistics, 27, (2), 483-493.
— (1997): Speaker recognition and forensic phonetics. In: The handbook of phonetic sciences,
744-767.
Nolan, F., McDougall, K., De Jong, G., Hudson, T. (2009): The DyViS database: style-controlled
recordings of 100 homogeneous speakers for forensic phonetic research. In: International
Journal of Speech Language and the Law, 16, (1), 31-57.
Poore, M.A., Ferguson, S.H. (2008): Methodological variables in choral reading. In: Clinical
linguistics & phonetics, 22, (1), 13-24.
Porter, R.J., Lubker, J.F. (1980): Rapid reproduction of vowel–vowel sequences: Evidence for a fast
and direct acoustic–motoric linkage in speech. In: Journal of Speech & Hearing Research,
593-602.
Ramus, F., Nespor, M., Mehler, J. (1999): Correlates of linguistic rhythm in the speech signal. In:
Cognition, 73, (1), 265-292.
Roach, P. (1982): On the distinction between ‘stress-timed’ and ‘syllable-timed’ languages. In:
Linguistic controversies, 73-79.
Shockley, K., Sabadini, L., Fowler, C.A. (2004): Imitation in shadowing words. In: Attention,
Perception, & Psychophysics, 66, (3), 422-429.
Travaux neuchâtelois de linguistique, 2013, 59, 167-181

Audiovisuelle Sprechererkennung durch


linguistisch naive Personen

Sibylle SUTTER und Volker DELLWO


Phonetisches Laboratorium, Universität Zürich

Human speech perception is not only based on acoustic speech signals but also on
visual cues like lip or jaw movements. Based on this assumption we used a between-
subject design to test listeners’ speaker identification ability in a voice line-up after
they were familiarized with a speaker under either of the following condition: (a) visual
and degraded acoustic information, (b) degraded acoustic information only, and (c)
visual information only. The results from this experiment indicate that listeners are
able to perform the identification task to a considerable degree under all three
experimental conditions. We conclude that listeners’ identification ability of speakers
based on degraded acoustic material is about as good as their identification ability
based on visual speech cues. The combination of acoustic and visual cues does not
enhance listeners’ performance.

Gesprochene Sprache wird nicht nur auditiv sondern auch visuell


wahrgenommen (audiovisuelle Sprachwahrnehmung; Rosenblum, 2005).
Dies ist vor allem für die Sprachverständlichkeit von grosser Bedeutung. In
Kommunikationssituationen, in denen Hörer die Sprecher nicht nur hören,
sondern auch sehen können, ist die Verständlichkeit des Signals besonders
unter schwierigen Hörbedingungen (Hintergrundlärm oder störende
Sprachsignale von anderen Sprechern gesprochen) deutlich besser. Doch
kann das visuelle Sprachsignal auch die Sprecheridentifizierungsleistung
von Hörern verbessern? Eine solche Annahme ist aus zweifacher Sicht
naheliegend. Als Hörer haben wir meist langjährige Erfahrung damit,
welche Stimmen von welchen Sprechapparaten gebildet werden. Wenn wir
das Bild einer Person sehen, die wir nicht kennen, haben wir daher häufig
schon eine gewisse Vorstellung darüber, wie deren Stimme klingen könnte.
Besser noch geht dies, wenn wir die Artikulationsbewegungen beobachten
können. Dies ist schon durch eindeutige experimentelle Ergebnisse belegt.
Mit der Facial-Point-Light Methode zeigte Rosenblum et al. (2006), dass
Betrachter eine ihr vertraute Person aufgrund von ihrer
Artikulationsbewegungen identifizieren können. Bei dieser Methode
werden den zu erkennenden Personen leuchtende Punkte auf sichtbare
Artikulatoren wie Lippen und Kiefer geklebt. Die Präsentation der Personen
im Experiment erfolgt dann im Dunklen, weshalb das eigentliche Gesicht
nicht sichtbar ist. Weitere Befunde für die Annahme das Individuen
aufgrund von im Artikulationsprozess verwendeten Bewegungen erkannt
werden können, zeigen Kamachi et al. (2003). In dieser Studie mussten
Hörer einer Stimme einen von zwei präsentierten Sprechern (in Form eines
168 Audiovisuelle Sprechererkennung durch linguistisch naive Personen

Videos) zuordnen, von dem sie glaubten, dass dies der Sprecher ist, der das
Stimmsignal produziert hat. Die Studie zeigte, dass Hörer dies signifikant
über einer Zufallsverteilung konnten, obwohl die eigentliche Effektgrösse
eher klein war.

Zusammenfassend lässt sich sagen, dass man aufgrund vorausgehender


Studien davon ausgehen sollte, dass Artikulationsbewegungen, ähnlich wie
bei der Sprachverständlichkeit dazu beitragen sollten, dass auch Sprecher
besser wiedererkannt werden. Mit anderen Worten könnte dies bedeuten:
Sollten wir die Stimmen von Sprechern akustisch und visuell erlernen,
können wir diese Stimmen möglicherweise besser memorisieren, als
Stimmen von Sprechern, mit denn wir nur akustisch familiarisiert wurden.
Es könnte weiterhin die Möglichkeit bestehen, dass wir Sprecher auch
dann aufgrund ihrer Stimme wiedererkennen, wenn wir nur visuell mit
ihnen familiarisiert wurden. Diese Hypothesen wurden in der vorliegenden
Arbeit getestet.

1. Audiovisuelle Sprachwahrnehmung

1.1 Face Overshadowing Effect


Ergebnisse bisheriger Studien lassen annehmen, dass beim visuellen
Stimulus eine Differenzierung vorgenommen werden muss. Cook & Wilding
(1997) zeigten, dass sich das visuelle Signal auch negativ auf die auditive
Wahrnehmung auswirken kann und zwar dann, wenn das Signal als
statisches und nicht bewegtes Bild präsentiert wird. In ihrem Artikel ist
vom Face Overshadowing Effect (FOE) die Rede. Damit ist eine Art
Überblendungseffekt des visuellen Stimulus auf den auditiven gemeint. Die
Studie zeigt, dass sich der visuelle Stimulus störend auf die auditive
Wahrnehmung auswirkt. Bei gleichzeitiger Präsentation von auditivem und
visuellem Stimulus verschlechtert sich in ihren Experimenten das
Erinnerungsvermögen der Probanden in Bezug auf das Gesprochene, dass
sie sich merken sollten. Diese Ergebnisse sind nicht unplausibel, denn die
Präsentation von visuellen Signalen während der Familiarisierung mit der
Stimme eines Sprechers kann durchaus dazu führen, dass die
Aufmerksamkeit des Hörers vom akustischen Signal zugunsten des
visuellen Signals gelenkt wird. Bei einer Wiedererkennung aufgrund von
rein auditiver sprachlicher Information, fehlen dann dem Hörer wichtige
Informationen (Paul Iverson, persönliche Kommunikation). Auch Legge,
Grosmann & Pieper (1984) finden keinen positiven Einfluss des visuellen
Stimulus auf die auditive Sprachperzeption. Den Versuchspersonen wird
nebst der Präsentation eines auditiven Stimulus' ebenfalls ein statisches
Bild des Sprechers gezeigt. Hier ist jedoch durchaus die Schlussfolgerung
möglich, dass eine Steigerung der Sprecheridentifizierungsleistung durch
Sibylle SUTTER & Volker DELLWO 169

audiovisuelle Information nur bei einem bewegten visuellen Stimulus


erfolgt.

1.2 Bessere auditive Verständlichkeit durch visuelle Unterstützung


Zahlreiche Studien belegen, dass der bewegte visuelle Stimulus einen
positiven Effekt auf die Sprachwahrnehmung hat (siehe auch Einleitung).
Durch die gleichzeitige Präsentation von auditiven und visuellen Stimuli
wird die Sprachverständlichkeit gesteigert (vgl. dazu bspw. Neti, Iyengar,
Potamianos, Senior & Maison, 2000; Sheffert & Olson 2004). Dieses
Phänomen ist jedoch nicht nur in wissenschaftlichen Studien sondern auch
aus dem Alltag bekannt. Steht man an einem Bahnhof mit vorbeifahrenden
Zügen oder in einer Disco mit lauter Musik, ist es einfacher, jemanden zu
verstehen, wenn man dessen Gesicht respektive dessen
Lippenbewegungen sehen kann. Die akustischen Signale können dabei fast
gänzlich im Lärm untergehen und man ist trotzdem fähig, zu erahnen, was
der andere einem mitteilen möchte. Die Studie von Neti et al. (2000) geht
von der Annahme eines positiven Einflusses des visuellen Stimulus’ auf den
auditiven aus. Durch die visuelle Unterstützung wird die
Sprachverständlichkeit gesteigert. Neti et al. erläutern in ihrem Artikel, wie
dieses Phänomen für die Mensch-Computer-Interaktion genutzt werden
kann. Auch in den Arbeiten von Sheffert & Olson (2004) zeigt sich der
visuelle Stimulus unterstützend für die Sprachverständlichkeit.

1.3 Einfluss des auditiven Stimulus auf die visuelle Wahrnehmung


Alle diese Studien untersuchen den Effekt der visuellen Wahrnehmung auf
die auditive. Bleibt die Frage, ob auch umgekehrt ein Effekt gefunden
werden kann. Das heisst, ob auch der auditive Stimulus Einfluss auf die
visuelle Wahrnehmung nimmt. In der Untersuchung von Joassin, Maurage,
Bruyer, Crommelinck & Campanella (2004) wird diese Frage untersucht. Sie
konzentrieren sich auf die Beeinflussung des auditiven Stimulus auf die
visuelle Wahrnehmung und kommen zum Schluss, dass die Informationen
von Gesicht und Stimme nicht gleich schnell verarbeitet werden, was zu
einer gegenseitigen Beeinflussung der Perzeptionsarten führt. Für das
Vorhandensein einer gegenseitigen Beeinflussung der auditiven und
visuellen Wahrnehmung wird als Evidenz oft das Paradigma-Beispiel der
audiovisuellen Sprachverarbeitung herangeführt: Der McGurk Effekt. In der
Studie von McGurk & MacDonald (1976), die diesen Effekt beschreibt, wird
gezeigt, dass sich visuelle und auditive Stimuli gegenseitig beeinflussen.
Das akustische Sprachsignal wird durch die gleichzeitige Beobachtung der
Lippenbewegung, auch wenn dies unbewusst geschieht, beeinflusst.
170 Audiovisuelle Sprechererkennung durch linguistisch naive Personen

1.4 Ziel und Motivation


Die Wissenschaft scheint sich offensichtlich uneinig zu sein, ob die
Integration von auditiver und visueller Wahrnehmung förderlich oder
hemmend für unterschiedliche Sprachwahrnehmungsaufgaben ist.
Mitunter scheint die Erkennungsleistung von Hörern auch abhängig davon
zu sein, ob der visuelle Stimulus (d.h. zum Beispiel der Kopf eines
Sprechers) nur als statisches oder bewegtes Bild präsentiert wird. Die
Studien von Rosenblum et al. unterstreichen das Vorhandensein cross-
modaler Informationen in Stimme und Gesicht. Sie zeigen, dass
Informationen der Stimme einer Person in den Artikulationsbewegungen zu
finden sind und das daher einem Hörer bekannte Personen nur aufgrund
der Betrachtung ihrer Artikulationsbewegungen identifizierbar sind. Die
auditive und visuelle Wahrnehmung stehen also in einem engen
Zusammenhang. Es ist daher plausibel, dass idiosynkratrische
Informationen eines Sprechers aus den Artikulationsbewegungen gelesen
und zur Sprecheridentifizierung genutzt werden können. Cook & Wilding
zeigen jedoch, dass sich visuelle Information negativ auf die
Sprechererkennungsleistung auswirken kann.
In der vorliegenden Studie wurde die Sprecheridentifizierungsleistung von
linguistisch-phonetisch naiven Hörern mit und ohne auditive Information
mittels einer sogenannten Voice Parade getestet. Hörer wurden zunächst
mit der Stimme eines Sprechers familiarisiert, welche sie darauf aus einer
randomisierten hintereinander abfolgenden Präsentation unterschiedlicher
akustischer Signale von Stimmen wiedererkennen mussten. Die
Familiarisierung erfolgte in unserem Fall unter drei verschiedenen
Bedingungen:
(a) Die Hörer wurden nur mit dem auditiven Signal der Stimme des
Sprechers familiarisiert. (Audio Kondition [A])
(b) Die Hörer wurden mit dem auditiven und visuellen (Video des
Sprecherkopfs) Signal des Sprechers familiarisiert. (Audio-Video
Kondition [AV])
(c) Die Hörer wurden nur mit dem visuellen Signal des Sprechers
familiarisiert. (Video Kondition [V])

2. Methoden

2.1 Versuchspersonen
65 Probanden nahmen Teil, davon 53 mit Schweizerdeutsch und 12 mit
Hochdeutsch als Muttersprache. Je 22 Versuchspersonen wurden in der A-
und in der AV-Kondition getestet sowie 21 in der V-Kondition. Die
Rekrutierung erfolgte an der Universität Zürich. Daher handelt es sich bei
Sibylle SUTTER & Volker DELLWO 171

den Versuchspersonen zum grossen Teil um Studierende. Alle gaben an,


keine einschränkenden Seh- oder Hörprobleme zu haben. Die Teilnahme
wurde nicht vergütet.

2.2 Material & Stimuli


Für die Stimulusproduktion wurden neun männliche Sprecher
aufgenommen. Zwei Sprecher wurden nachträglich vom Experiment
ausgeschlossen (undeutliche Aussprache und technische Probleme bei der
Aufnahme). Die verbleibenden sieben Sprecher wurden für das Experiment
verwendet. Alle Sprecher (Altersumfang: 20 bis 36) sind alle
Schweizerdeutsch Muttersprachler (vier Aargauerdeutsch (Nordost Aargau),
zwei Zürichdeutsch, einer eine Mischung aus Aargauer (Nordost Aargau)-
und Zürichdeutsch und einer eine Mischung aus Aargauer (Nordost
Aargau)- und Solothurnerdeutsch). Die Sprecher lasen einen
Schweizerdeutschen Text (vgl. Appendix I) vor, der einen Kidnapping-Anruf
simulierte. Die gesamte Aufnahme eines Sprechers dauerte rund 30
Sekunden.
Die Aufnahme der Sprecher erfolgte mit einer Sony Handycam 10.2 Mega
Pixels. Sie wurde dem Sprecher auf einem Stativ im Abstand von ca. 1.5
Meter frontal gegenübergestellt. Es wurden nur die Gesichtspartien
aufgenommen, so dass der Sprechapparat im Fokus der Aufnahme lag. Der
Sprecher sass während der Aufnahme und es wurde darauf geachtet, dass
möglichst keine Bewegungen mit dem Kopf gemacht wurden. Der Sprecher
konnte den Text, welcher neben der Kamera aufgehängt war während der
Aufnahme ablesen. Der Ton wurde mit einem Zoom H2 Handy Recorder
aufgezeichnet. Den Probanden wurde folglich ein MPEG-4 Video in höchster
Qualität, einer Basisbildrate von 24, Bitrate 6400 kBit/s in der Grösse von
1920x1080 vorgespielt. Die Mono-Tonspur wurde als 32-Bit-Integer-Datei
(Little Endian) mit einer Abtastrate von 48.000 kHz aufgenommen.
Familiarisierungsmaterial: Die komplette Audio-, Audio-Video- und
Videoaufnahmen (ca. 30 Sekunden) wurden dreimal
hintereinandergeschnitten und als Familiarisierungsmaterial für die
jeweiligen Konditionen verwendet. Pilotstudien zeigten, dass die
Identifizierungsaufgabe für die A-Kondition mit qualitativ hochwertigen
Aufnahmen zu einem Deckeneffekt führte (alle Versuchspersonen können
die Aufgabe zu fast 100% lösen). Aus diesem Grund wurde das audio-
Familiarisierungssignal degradiert, (a) durch einspielen eines
1
Hintergrundgeräuschs mit +3dB SNR (Multi Speaker Babble ; 100 Sprecher
in einer Kantine) und (b) durch telefonähnliche Bandpassfilterung (Pass

1
Institute for Perception-TNO (1990):
http://spib.rice.edu/spib/data/signals/noise/babble.html [Stand: 20.02.2012]
172 Audiovisuelle Sprechererkennung durch linguistisch naive Personen

zwischen 300 bis 3500 Hz). Die durchschnittliche Intensität der Aufnahmen
wurde auf 70 dB vereinheitlicht.
Voice-Parade Material: Für die Voice-Parade wurde der gelesene Text eines
jeden Sprechers in 10 Sätze unterteilt. Die Parade bestand aus 140 Stimuli
(10 Sätze x 7 Sprecher x 2 Durchgänge). Die Dauer der Stimuli betrug
zwischen drei und vier Sekunden. Die beiden Durchgänge wurden für jeden
Hörer individuell randomisiert und hintereinander präsentiert (permute
balanced).

2.3 Ablauf
Nach der Familiarisierung mit einem Zielsprecher muss der Hörer aus einer
ihm unbekannten Anzahl verschiedener Sprecher die Zielstimme
wiedererkennen. Die Versuchspersonen werden randomisiert in drei
Gruppen aufgeteilt und mit einem Between Subject Design getestet
(Teilnahme jeweils nur an einer der drei Familiarisierungskonditionen: A, AV
oder V). In der Familiarisierungsphase werden die Probanden mit einem
Zielsprecher in einer der drei Kondition familiarisiert (Gruppe A: nur
Audiosignal, Gruppe B: Audio-videosignal, Gruppe C: nur Videosignal).
Während der Testphase müssen die Versuchsgruppen den Zielsprecher aus
einer ihnen unbekannten Anzahl Sprecher wieder-erkennen. Allen drei
Gruppen wird die identische Voice-Parade vorgespielt. Die Voice-Parade
wird mittels Praat präsentiert. Den Hörern wird ein Stimulus vorgespielt,
worauf sie auf einem Computerbildschirm mittels einer Maus eine Auswahl
zwischen "ja, das ist der Sprecher" und "nein, das ist er nicht" treffen
müssen. Die Antwort werden differenziert mit: "sicher", "weiss nicht recht",
"nur geraten" (vgl. Appendix II).
Damit ein allfälliger Effekt nicht auf eine spezifische Stimme reduziert
werden kann, werden die Versuchspersonen randomisiert mit einer von drei
unterschiedlichen Sprechern (aus der Gruppe von sieben) familiarisiert.
Für die Familiarisierung werden die Versuchspersonen lediglich darauf
hingewiesen, sich die Stimme gut einzuprägen. Sie bekommen keine
weiteren Informationen zum Experiment. Nach dem dritten Anhören
beziehungsweise Ansehen des Zielsprechers werden die Versuchspersonen
darüber informiert, dass es sich um eine Sprecheridentifizierungsaufgabe
handelt. Es wird eine Demo gezeigt, wie sie in der Folge ihre Antworten
abgeben müssen. Ein Stimm-Sample aus dem Experiment wird vorgespielt,
wobei die Hörer auf die Frage antworten müssen: "War das der Sprecher
von vorhin?". Zur Auswahl stehen die Antworten "ja" und "nein", mit der
Differenzierung "sicher", "weiss nicht recht", "nur geraten". Wenn die Hörer
nach den zwei Demo-Samples keine Fragen haben, können sie einen
Fragebogen zu den Personalien ausfüllen. Jeder Versuchsperson wird eine
ID zugewiesen, mit der das Experiment anonymisiert wird. Erhoben werden
Sibylle SUTTER & Volker DELLWO 173

die sozialdemographischen Daten: Alter, Geschlecht, Muttersprache (ggf.


zweite Muttersprache), Dialekt, Wohnkanton, Bildungsstand (Abschluss:
Doktorat, Master, Bachelor, Matura, Volksschule). Ausserdem müssen die
Versuchspersonen bestätigen, eingehend über das Experiment informiert
worden zu sein, sowie freiwillig und aus eigenem Willen an der
Untersuchung teilzunehmen. Nach dem Ausfüllen des Personalien-
Fragebogens können die Probanden selbstständig das Experiment starten.
In der Folge werden ihnen die 140 Stimuli der Voice-Parade vorgespielt.
Nach jeder Stimulus Präsentation geben die Hörer ihre Antwort. Nach
erteilen der Antwort wird umgehend der nächste Stimulus abgespielt. Bei
der V-Kondition wurden alle Probanden gleichzeitig getestet. Die
Familiarisierung mit dem Zielsprecher erfolgte mit der Übertragung auf
eine Grossleinwand in einem Hörsaal der Universität Zürich. Die Antworten
werden nicht wie beim Hauptexperiment von den Hörern direkt im
Computer eingetragen, sondern manuell auf Fragebögen abgegeben.

2.4 Statistische Methoden


Die statistischen Analysen wurden mit Praat und SPSS (SPSS, Version 18.0,
Chicago, Illinois) für Windows durchgeführt. Die erhobenen Daten wurden
zuerst auf Normalverteilung durch optische Einschätzung beurteilt. Das
Signifikantsniveau wird auf p ≤ 0.05 festgelegt. Als unabhängige Variable
dient die Probandengruppen der A-, AV-Kondition sowie V-Kondition. Als
abhängige Variable wird die Identifizierungsperformanz IDP der Hörer
definiert. Diese wird durch die Richtigkeit der Antworten statistisch
ermittelt.
Die Hörerperformanz werden mit %Correct und A’ aus der
Signaldetektionstheorie ermittelt. %Correct ermittelt sich aus dem
Durchschnitt der korrekten Identifizierungen (Zielsprecherpräsentation mit
‚ja’ beantwortet) und der korrekten Rückweisungen (Dummypräsentation
mit ‚nein’ beantwortet). Die daraus sich ergebende Zufallsverteilung liegt
stets bei 50% korrekt. A’ ist ein nicht-parametrisches Mass der Sensitivität
einer Versuchsperson. Es berechnet sich aus der Fläche unterhalb der
sogenannten ROC Kurve (receiver operating characteristics), die die
Verteilung der Trefferrate über die Verteilung der Fehlerrate darstellt. Die
Motivation für die Berechnung von A’ ist, dass eine mögliche Hörerneigung
zu ja oder nein Antworten in diesem Mass deutlich reduziert bis nicht mehr
vorhanden ist.

3. Resultate

Die Frage ist, wie sich die audiovisuelle Wahrnehmung auf die
Sprecheridentifizierungsperformanz von naiven Hörern beziehungsweise
Betrachtern auswirkt. Es wird angenommen, dass die Versuchspersonen
174 Audiovisuelle Sprechererkennung durch linguistisch naive Personen

der AV-Kondition am besten abschneiden im Vergleich zu den anderen


beiden Konditionen A und V, da sie sowohl akustische Informationen aus
der Stimme als auch visuelle Informationen aus den
Artikulationsbewegungen nehmen können. Für die A- und V-Kondition wird
ein ähnliches Resultat suggeriert, da bei der A-Kondition wesentliche
Informationen im Frequenz-Bereich durch die Degradierung verloren gehen
und der Hörer nur mit den Informationen aus dem Zeitbereich die Stimme
beurteilen kann. Bei der V-Kondition kann der Betrachter des tonlosen
Videos diese Informationen des Zeitbereichs aus den
Artikulationsbewegungen ablesen.

Abb. 1: Streudiagramm der A’-Werte aller Versuchspersonen

Wie das Streudiagramm in Abbildung 1 zeigt, verteilen sich die Ergebnisse


der Probanden sehr stark. Jeder Punkt in der Graphik entspricht einer
Versuchsperson respektive ihrer IDP. Klar ersichtlich wird in jeder
Kondition die Zweiteilung der Probanden. Sie gruppieren sich sowohl ober-
als auch unterhalb des Werts 0.5 für den A’. Um 0.5 zeigt sich eine grosse
Lücke. Vor allem in den Konditionen A und AV scheinen die
Versuchspersonen entweder erfolgreich den Test lösen zu können (jene die
sich oberhalb von 0.5 gruppieren) oder Mühe zu haben, den Zielsprecher zu
identifizieren (Punkte die sich unterhalb von 0.5 gruppieren).
Nach optischer Beurteilung des Streudiagramms kann ausgesagt werden,
dass es stark hörerbedingt ist, ob die Aufgabe lösbar ist oder nicht. In allen
drei Konditionen gibt es eine Gruppe von Versuchspersonen, die die
Aufgabe recht gut können und eine Gruppe, die die
Sprecheridentifizierungsaufgabe nicht oder nur schlecht lösen. In der A-
Kondition erreichen rund 76 % einen A’ > 0.5. Bei der AV-Kondition sind es
Sibylle SUTTER & Volker DELLWO 175

gar 80 %. Der A’ liegt dabei bei beiden Konditionen im Schnitt bei 0.62 bei
einer Standardabweichung von 0.24 (A) sowie 0.25 (AV-Kondition). Von den
21 Versuchspersonen der V-Kondition erreichen 13 einen A’ > 0.5, was rund
60% der Teilnehmenden entspricht. Acht Probanden erreichten einen A’ <
0.5 (38.09%) und können somit die Aufgabe nicht lösen.

Abb 2: A’ und %Correct der drei Versuchskonditionen

Wie die Boxplots links in Abbildung 2 zeigen, streuen sich die Ergebnisse
enorm, während der Median in den Konditionen A und AV klar über 0.5 liegt
und sich in der V-Kondition mehr oder weniger auf dem Wert der
Zufallswahrscheinlichkeit einpendelt. Die Grafik zeigt deutlich die enorm
starke Streuung in allen drei Konditionen. Weniger deutlich als im
Streudiagramm zeigt sich hier die grosse Lücke (vor allem in den
Konditionen A und AV) um den Zufallswahrscheinlichkeitswert von 0.5
herum. Es ist aber sehr schön ablesbar, dass sich die Streuung vom einen
(1.0) zum anderen Extrem (0.0) zieht was die hohe Variabilität der
Performanz der Versuchspersonen zeigt. Vergleicht man das Resultat der
A’-Werte mit jenem von %Correct, zeigt sich ein interessantes Bild.
Während beim A’ die Sensitivität der Versuchspersonen ermittelt wird,
zeigt %Correct die Zusammenfassung der korrekten Antworten.
Interessant dabei ist zu erkennen, dass bei %Correct alle drei
Versuchskonditionen über der Zufallswahrscheinlichkeit liegen. Und noch
mehr: Die IDP scheint in allen drei Konditionen gleich zu sein.
Die erhobenen Variablen (Alter, Geschlecht, Ausbildung, Muttersprache
beziehungsweise Dialektnähe) zeigen keine Unterschiede in Bezug auf die
IDP der Probanden. Es muss davon ausgegangen werden, dass diese
Variablen keinen Einfluss haben auf die Identifizierungsfähigkeit der
Probanden in diesem Experiment.
176 Audiovisuelle Sprechererkennung durch linguistisch naive Personen

4. Diskussion

Die drei Zielsprecher wurden mehr oder weniger in demselben Masse


wiedererkannt. Die Unterschiede der korrekten Antworten innerhalb der
drei Zielsprecher sind minim und nicht signifikant. Die feine Tendenz eines
Sprechers, der etwas schlechter identifiziert wurde, im Vergleich zu den
anderen beiden Zielsprechern, zeigt, dass es nicht nur hörerbedingt ist, wie
gut man eine Stimme wiedererkennen kann, sondern dass das Ergebnis
auch von der Stimme des Zielsprechers abhängig sein kann.
Möglicherweise kann man sich je nach Stimmcharakteristika eine Stimme
besser oder schlechter merken. Im vorliegenden Experiment handelt es
sich zudem um degradierte Tonaufnahmen. Beim Anhören der
Stimmsamples sind klare Unterschiede zu erkennen. Im Vergleich zu den
gut identifizierten Zielsprechern ist es akustisch viel schwieriger, den
dritten Sprecher aus dem Babble Speech Noise heraus zu hören.
Möglicherweise wird deshalb dieser Sprecher am schlechtesten
identifiziert. Dass bei diesem Sprecher eine etwas höhere IDP in der AV-
Kondition ablesbar ist, im Vergleich zur A-Kondition, könnte daran liegen,
dass der visuelle Stimulus sich positiv auf den auditiven auswirkt. Durch
den visuellen Stimulus wird das Gesagte verständlicher, beziehungsweise
kann die Stimme des Sprechers besser herausgehört werden, weil man
durch das Lippenlesen dem Gesagten besser folgen kann. Bei den anderen
beiden Zielsprechern tritt dieser Effekt nicht ein. Bei ihnen ist der Wert der
korrekten Antworten in der A-Kondition leicht höher als jener in der AV-
Kondition. Dieses Ergebnis spricht gegen den von Cook & Wilding
definierten FOE (vgl. Cook & Wilding, 2001), unterstreicht jedoch die
Resultate von Sheffert & Olson (2004), die den Einfluss des visuellen
Stimulus auf die auditive Wahrnehmung positiv werten. Vergleicht man alle
drei Konditionen miteinander kann erstaunliches festgestellt werden: Die
Versuchspersonen aller drei Konditionen schneiden ungefähr gleich ab. Das
heisst, dass ein degradiertes Tonsignal für den Hörer mehr oder weniger
denselben Informationsgehalt liefert, den er zur Identifizierung der Stimme
braucht, wie aus den Artikulationsbewegungen gelesen werden kann. Fügt
man beide Konditionen zusammen, werden die Informationen jedoch nicht
akkumuliert. Auch die Versuchspersonen der AV-Kondition schneiden in
demselben Masse ab. Sie können den Vorteil nicht nutzen, sowohl das
akustische als auch das visuelle Signal zu hören und zu sehen. Es ist
jedoch auch kein Überblendungseffekt des einen Stimulus auf den anderen
auszumachen, was zu einer schlechteren Performanz geführt hätte.
Die Verteilung der Ergebnisse zeigt, dass die Performanz der Hörer in
diesem Experiment nicht von deren muttersprachlichen Dialekten abhängig
ist. Die Resultate zeigen ebenfalls, dass die IDP bei der
Sprecheridentifizierung unabhängig davon ist, mit welcher Kondition das
Experiment gelöst wird. In den einzelnen Dialektgruppen schneiden alle
Sibylle SUTTER & Volker DELLWO 177

Probanden in allen Kategorien ungefähr gleich ab. Folglich scheint in


diesem Experiment der Dialekt keinen Einfluss auf die Performanz der
Hörer zu haben. Interessant wäre an diesem Punkt weiter zu testen, ob
dasselbe Resultat erzielt würde, wenn das Experiment mit Hörern
durgeführt würde, die kein Schweizerdeutsch verstehen. Es sind dabei
verschiedene Möglichkeiten in Betracht zu ziehen. Eine bessere
Performanz der Versuchspersonen, die die Sprache der Sprecher nicht
verstehen, könnte so interpretiert werden, dass man sich besser auf die
Stimmmerkmale konzentrieren kann, wenn man nicht durch den Inhalt des
Gesagten abgelenkt ist. Fiele das Resultat genau umgekehrt aus, würde
das wohl daran liegen, dass man sich eine Stimme besser merken kann,
wenn man mit der gesprochenen Sprache vertraut ist. Beide Ergebnisse
werden als plausibel betrachtet, müssten jedoch erst in einem weiteren
Schritt getestet werden.
Bei der geringen Anzahl Männern, die getestet wurde, ist es nicht möglich,
eine signifikante Aussage zur geschlechtsspezifischen Performanz der
Versuchspersonen zu machen. Nach den eingehend diskutierten Studien
gibt es aber keinen Grund zur Annahme, dass sich die
Identifizierungsfähigkeit von Frauen und Männern unterscheiden sollte. Es
wird zwar in verschiedenen Experimenten getestet, ob es Differenzen in der
Identifizierungsperformanz gibt, wenn der Stimulus von einer weiblichen
oder einer männlichen Stimme stammt (vgl. Sheffert & Olson, 2004; Joassin
et al., 2004; Belin et al., 2000 und weitere), nicht aber ob sich die
Performanz von männlichen und weiblichen Versuchspersonen
unterscheidet. Eine neuropsychologische Studie von Lattner, Meyer &
Friederici (2005), welche sich mit der Sprachperzeption beschäftigt,
eingehend aber nicht berücksichtigt wurde, da der Fokus nicht auf der
audiovisuellen Wahrnehmung liegt, sondern auf der Beurteilung der
Natürlichkeit einer Stimme, hat diesen Aspekt jedoch berücksichtig und
untersucht, ob es Unterschiede in der Performanz von Frauen und Männern
gibt. Lattner et al. eruierten in ihrer Studie, inwiefern sich die
Sprachperzeption von männlichen und weiblichen Hörern unterscheidet,
die eine Stimme auf ihre Natürlichkeit beurteilen müssen (vgl. Lattner et al.,
2005). Den Versuchspersonen werden natürliche und manipulierte Stimmen
von Frauen und Männern präsentiert. Die Studie zeigt, dass es 90% der
Hörer gelingt, die natürlichen von den manipulierten Stimmen zu
unterscheiden. Die gute Performanz der Hörer ist unabhängig davon, ob
diese männlich oder weiblich sind. Hinsichtlich diesem Ergebnis und der
Tatsache, dass keine der eingehend zitierten Untersuchungen den Gender-
Aspekt in der Performanz von Stimmbeurteilungen berücksichtigt, darf
angenommen werden, dass es keine signifikanten geschlechtsspezifischen
Unterschiede in der Sprachperzeption gibt.
178 Audiovisuelle Sprechererkennung durch linguistisch naive Personen

5. Conclusion

Die Hypothese, dass der visuelle Stimulus den auditiven bei der
Sprechererkennung positiv beeinflusst, kann nicht signifikant gezeigt
werden, eine feine Tendenz zu dieser Annahme ist jedoch aus den
Resultaten ablesbar. Die vorliegende Untersuchung zeigt, dass es extrem
hörerbedingt ist, wie gut man bei einer Identifizierung von Sprechern
sowohl bei der auditiven, audiovisuellen als auch bei der visuellen
Kondition abschneidet. Es scheint für einige Hörer der A-Kondition kein
Problem zu sein, den Zielsprecher aus verschiedenen Tonaufnahmen
herauszuhören. Es gibt aber eine ähnlich grosse Anzahl Hörer, die
Probleme damit haben. Dasselbe Bild zeigt sich in der AV- und V-Kondition.
Einige Versuchspersonen schneiden nach der Familiarisierung mit einem
Video des Zielsprechers sehr gut ab und können ihn von den anderen
Sprechern unterscheiden. Jedoch zeigt sich auch eine grosse Gruppe an
Hörern, denen dies nicht gelingt. Die Versuchspersonen der AV-Kondition
können die zusätzliche visuelle Information nicht zur Steigerung ihrer IDP
nutzen. Ihre IDP ist nicht höher als jene der A-Gruppe. Die V-Kondition zeigt
jedoch, dass auch mit einem fehlenden Tonsignal eine
Stimmidentifizierung möglich ist. Nimmt man %Correct, zeigt sich, dass die
visuellen Informationen, die durch die Artikulationsbewegungen gesendet
werden, ungefähr gleich viel Stimminformation beinhaltet wie ein
degradiertes Tonsignal. Die Kombination aus beidem, ein degradiertes
Tonsignal und ein Videosignal der Artikulationsbewegungen, liefert jedoch
nicht die doppelte Information. Das zeigt das Ergebnis von %Correct,
welches in allen drei Konditionen gleich zu sein scheint.
Die grosse Variabilität des Ergebnisses zeigt jedoch, dass dieses
Experiment sehr hörerspezifisch ist. Es müsste ein Versuchsdesign
konzipiert werden, bei dem jeder Proband in jeder Kondition getestet wird.
Dabei muss jedoch beachtet werden, dass sich beim Hörer kein Lerneffekt
einstellt sowohl in Bezug auf die Stimuli als auch in Bezug auf den
Versuchsablauf. Ein weiterer spannender Punkt, der im Bereich der
audiovisuellen Sprachwahrnehmung untersucht werden könnte, ist die
Frage, ob man sich besser auf die Stimme eines Sprechers konzentrieren
kann, wenn man dessen Sprache nicht versteht oder ob es genau
umgekehrt der Fall ist. Interessant wäre dabei zu sehen, ob sich
Unterschiede in der IDP_zeigen zwischen den drei Konditionen. Eine
weitere Variable, die mit dem vorliegenden Experiment nicht getestet
wurde, ist die Frage nach dem Langzeitgedächtnis. Die Probanden lösten
die Sprecheridentifizierungsaufgabe unmittelbar nach der Familiarisierung
mit dem Zielsprecher. Wie lange kann man sich eine einmalig gehörte
Stimme merken? Und ist es möglich eine Stimme nach einer gewissen
Zeitperiode wieder zu erkennen, wenn die Stimme beim ersten Kontakt
degradiert oder verstellt war?
Sibylle SUTTER & Volker DELLWO 179

Mit der vorliegenden Untersuchung kann gezeigt werden, dass cross-


modale Information von Stimme und Gesicht bestehen müssen. Die
eingangs in den untersuchten Studien aufgezeigte positive Beeinflussung
des visuellen Stimulus auf die auditive Wahrnehmung kann nicht
signifikant bestätigt werden. Ein FOE des visuellen Stimulus auf den
auditiven wurde jedoch nicht gefunden. Die Resultate zeigen, dass die
Information, welche aus den Artikulationsbewegungen gelesen werden
können, mehr oder weniger jenen entsprechen, die aus einem degradierten
Stimmsignal noch zu hören sind und für die Identifizierung dieser Stimme
nötig sind. Verbindet man diese beiden Stimuli, indem sowohl ein
akustisches sowie auch ein visuelles Signal gesendet wird, ist jedoch keine
bessere Identifizierungsperformanz beim Rezipienten auszumachen. Die
Stimuli scheinen sich nicht zu akkumulieren.
Mit der aufgezeigten Konzeptionierung des Experiments kann festgestellt
werden, dass die Performanz beim Wiedererkennen von Stimmen extrem
hörerspezifisch ist. Mit den erhobenen sozialdemographischen Daten der
Versuchspersonen kann keine signifikante Aussage darüber gemacht
werden, was diese hörerspezifische Performanz erklären lässt. Weder Alter,
Geschlecht, Muttersprache noch Dialekt scheinen einen bedeutsamen
Einfluss auf die Sprecheridentifizierungsfähigkeit zu haben. Weitere
Studien sind nötig, um die Komponenten zu finden, welche es Hörern
ermöglicht, eine familiarisierte Stimme aus verschiedenen
Stimmaufnahmen wieder zu erkennen. Ausserdem muss das Experiment so
konzeptioniert werden, dass jeder Proband in allen Konditionen getestet
wird, um zu eruieren, ob innerhalb der Sprecher eine bessere Performanz in
der AV-Kondition gegenüber der A- und V-Kondition auszumachen ist.

Danksagung

Die Autoren möchten sich bei Adrian Leemann und einem annonymen
Gutachter für wichtige Änderungsvorschläge bedanken.

Bibliographische Angaben

Armstrong, H. A. & McKelvie, S. J. (1996): The effect of face context on recognition memory for
voices. In: Journal of Experimental Psychology: General, 123(3), 259-270.
Belin, P., Zatorre, R. J., Lafaille, P., Ahad, P. & Pike, B. (2004): Thinking the voice: neural correlates
of voice perception. In: TRENDS in Cognitive Sciences, 8(3), 129-135.
Campanella, S. & Belin, P. (2007): Integrating face and voice in person perception. In: TRENDS in
Cognitive Sciences, 11(12), 535-543.
Cook, S. & Wilding, J. (2001): Earwithness testimony: Effects of exposure and attention on the face
overshadowing effect. In: British Journal of Psychology, 92(4), 617-629.
— (1997): Earwithness testimony 2: Voices, Faces and Context. In: Applied cognitive Psychology,
11(6), 527-541.
180 Audiovisuelle Sprechererkennung durch linguistisch naive Personen

Joassin, F., Maurage, P., Bruyer, R., Crommelinck, M. & Campanella, S. (2004): When audition
alters vision: an event-related potential study of the cross-modal interactions between
faces and voices. In: Neuroscience Letters, 369, (2), 132-137.
Kamachi, M., Hill, H., Lander, K. & Vatikiostis-Bateson, E. (2003): ,Putting the Face to the Voice’:
Matching Identity across Modality. In: Current Biology, 13, (19), 1709-1714.
Lattner, S., Meyer, M. E., Friederici, A. D. (2005): Voice Perception: Sex, Pitch, and the Right
Hemisphere. In: Human Brain Mapping, 24, (1), 11-20.
Legge, G. E., Grosmann, C. & Pieper, C. M. (1984): Learning unfamiliar voices. In: Journal of
Experimental Psychology: Learning, Memory, & Cognition, 10, (2), 298-303.
McAllister, H. A., Dale, R. H., Bregman, N. J., McCabe, A. & Cotton, R. (1993): When eyewitnesses
are also earwitnesses: effects on visual and voice identifications. In: Basic and Applied
Social Psychology, 14, 161-170.
McGurk, H. & MacDonald, J. D. (1976): Hearing lips and seeing voices. In: Nature, 264, (5588), 746-
748.
Neti, C., Iyengar, G., Potamianos, G., Senior, A., & Maison, B. (2000): Perceptual interfaces for
information interaction: joint processing of audio and viusal information for human-
computer interaction. In: Processing of the International Conference on Spoken Language, 3,
11-14.
Rosenblum, L. D., Smith, N. M., Nichols, S. M., Hale & S., Lee, J. (2006): Hearing a face: Cross-
modal speaker matching using isolated visible speech. In: Perception & Psychophysics, 38,
(1), 84-93.
Rosenblum, L. D. (2005): Primacy of Multimodal Speech Perception. In: David B. Pisoni & Robert E.
Remez (Hg.), The Handbook of Speech Perception, Malden, Oxford, Victoria (Blackwell
Publishing), 51-78.
Sheffert, S. M. & Olson, E. (2004): Audiovisual spreech facilitates voice learing. In: Perception &
Psychophysics, 66, (2), 352-361.
Sibylle SUTTER & Volker DELLWO 181

Appendix I: Stimulus Text

Mir händ nach de Schuel uf ihri Tochter Lisa gwartet.


Wänn Sii sii läbend weder wänd haa, dänn losed Sii jetzt mal guet zue:
Morn, am sächsi, leged Sii en Koffer mit vierzgtuusig Franke bim Becker
Huusmaa hinder d’Abfalltonne.
Sii werdet beobachtet. Chömmed Sii elläi.
Fahred Sii dänn mit Ihrem Auto in Richtig Wald.
Fahred Sii bis zu de Schrebergärte.
Stopped Sii det, stelled Sii de Motor ab und bliibed Sii im Wage sitze.
Sii ghöred dänn vo eus.
Mer bestimmed d’Spiilregle.
Und no öpis: kei Polizei.

Appendix II : Test Interface


Travaux neuchâtelois de linguistique, 2013, 59, 183-184

Adresse des auteurs

Mathieu AVANZI, mathieu.avanzi@unine.ch


Institut des sciences du langage et de la communication, Université de
Neuchâtel, Espace Louis-Agassiz 1, CH-2000 Neuchâtel

Volker DELLWO, volker.dellwo@uzh.ch


Phonetisches Laboratorium der Universität Zürich, Plattenstrasse 54, CH-
8032 Zürich

Pauline DUBOSSON, pauline.dubosson@unine.ch


Institut des sciences du langage et de la communication, Université de
Neuchâtel, Espace Louis-Agassiz 1, CH-2000 Neuchâtel

Adrian FOURCIN, a.fourcin@phon.ucl.ac.uk


Speech, Hearing and Phonetic Sciences, University Collegue London, 2
Wakefield Street, London

Daniel FRIEDRICHS, daniel.friedrichs@uzh.ch


Phonetisches Laboratorium der Universität Zürich, Plattenstrasse 54, CH-
8032 Zürich

Ingrid HOVE, ingrid.hove@uzh.ch


Phonetisches Laboratorium der Universität Zürich, Plattenstrasse 54, CH-
8032 Zürich

Marie-José KOLLY, marie-jose.kolly@pholab.uzh.ch


Phonetisches Laboratorium der Universität Zürich, Plattenstrasse 54, CH-
8032 Zürich

Adrian LEEMANN, adrian.leemann@pholab.uzh.ch


Phonetisches Laboratorium der Universität Zürich, Plattenstrasse 54, CH-
8032 Zürich

Naoki PETER, naoki@students.unibe.ch


Universität Bern, Institut für Sprachwissenschaft, Länggassstrasse 49, CH-
3000 Bern 9

Stephan SCHMID, schmidst@pholab.uzh.ch


Phonetisches Laboratorium der Universität Zürich, Rämistrasse 71, CH-
8006 Zürich
184 L'étude de la prosodie en Suisse

Sandra SCHWAB, sandra.schwab@unige.ch


Ecole de langue et de civilisation françaises, Université de Genève,
Candolle 5, CH-1211 Genève 4

Sibylle SUTTER, sibylle.sutter@gmail.com


Phonetisches Laboratorium der Universität Zürich, Plattenstrasse 54, CH-
8032 Zürich

Vous aimerez peut-être aussi