5. Die Sprachlaute I: Vokale

5.1. Vorbemerkung

Der Lautstrom ist eigentlich kontinuierlich. Die Grenzen zwischen den Segmenten lassen sich anhand von Oszillo- und Sonagrammen annähernd vermuten, in keinem Falle jedoch sind sie durch die Struktur der Daten exakt vorgegeben. Das Lautsystem und die Significantia von Sprachzeichen jedoch bestehen jedenfalls aus Einheiten. Folglich muß der Lautstrom in Einheiten zerlegt, also segmentiert werden. Die Segmentierung ist eine Abstraktion, die in mehreren Fällen nur sehr indirekt auf die Realität zu beziehen ist.

In der allgemeinen Phonetik geht es weniger darum, ein vollständiges Inventar der Sprachlaute der Welt zu machen, als die in den Sprachen vorkommenden Unterscheidungen zu systematisieren. Dazu verwendet man phonetische Merkmale. Diese werden in Kap. 8 im theoretischen Zusammenhang besprochen. In diesem Kapitel betrachten wir die wichtigsten phonetischen Merkmale von Vokalen. Die folgenden Abschnitte behandeln die Eigenschaften der einzelnen Segmente. Wie sie sich zu Systemen – Vokal- und Konsonantensystemen – zusammenfügen, ist Gegenstand von Kap. 11.

Die Vokale werden traditionell artikulatorisch nach Artikulationsart und Artikulationsstelle definiert. Diese Unterscheidung wird jedoch im folgenden nicht gemacht. Statt dessen behandeln Abschnitt 5.2 – 5.5 die artikulatorischen, akustischen und auditiven Eigenschaften der Kardinalvokale, während Abschnitt 5.6ff auf sekundäre Eigenschaften von Vokalen eingehen.

5.2. Vokalische Artikulation

Vokalische Artikulation ist normaler- (aber nicht notwendiger-!)weise stimmhaft. Die relevanten Abwandlungen bestehen in Änderungen des Rachen- und Mundraums. Diese werden durch Zunge und Lippen bewirkt. Da kein Kontakt zwischen den Artikulationsorganen zustandekommt, ist auch die Artikulationsstelle nicht leicht zu bestimmen. Die Zungenposition wird durch zwei Parameter beschrieben, die sich i.w. auf die vertikale und horizontale Dimension des Raums beziehen:

Höhe des höchsten Punktes des Dorsums. ()Man könnte sich statt dessen auch auf die Stelle der engsten Konstriktion beziehen.) Das Merkmal heißt Zungenhebung bzw. Geschlossenheit des Vokals und variiert zwischen ‘offen’ und ‘geschlossen’, auch ‘tief’ vs. ‘hoch’ genannt.
Position dieses Punktes relativ zur Wirbelsäule bzw. Rachenrückwand. Das Merkmal heißt auf Englisch ‘backness’ und variiert zwischen ‘vorn’ und ‘hinten’. Traditionell spricht man von ‘Vorder-’ und ‘Hinterzungenvokalen’. Die betreffenden Artikulationsstellen sind das Palatum bzw. das Velum, so daß man auch von palatalen bzw. velaren Vokalen spricht.¹

In der apparativen artikulatorischen Phonetik werden diese Positionen tatsächlich in Millimetern gemessen. Für die Klassifikation der Laute nach diesen Parametern kommt es freilich darauf an, die hier relevanten kategorialen Einteilungen zu bestimmen.

Neben diesen artikulatorischen gibt es akustische und auditive Charakterisierungen von Vokalen, die in den folgenden beiden Abschnitten zur Sprache kommen.

5.3. Formanträume

Die akustischen Eigenschaften von Vokalen sind vor allem durch die Formanten F₁ und F₂, sekundär auch durch F₃ und marginal F₄ bestimmt. In einem stark vereinfachten Modell kann man für die Erzeugung der Formanten die Resonanzräume wie folgt verantwortlich machen:

Wie man sieht, werden die zuständigen Resonanzräume von F₁ bis F₄ immer kleiner.

Der artikulatorische Parameter ‘geschlossen’ entspricht einer Zungenposition oben (vs. unten) im Artikulationsraum und mithin, grob gesprochen, einem größeren (vs. kleineren) Rachenraum. Bei geschlossenen Vokalen wird also der Rachenraum größer, und F₁ sinkt entsprechend ab.

Der artikulatorische Parameter ‘vorn’ entspricht einer Zungenposition vorne (vs. hinten) im Mundraum und mithin, grob gesprochen, einem kleineren (vs. größeren) Mundraum. Er wird allerdings nicht genau in F₂, sondern besser in der Differenz F₂ - F₁ manifestiert: Bei vorderen Vokalen ist der Mundraum viel kleiner als der Rachenraum, bei hinteren nähern sie sich in der Größe an.

F₃ ist desto niedriger, je mehr die Lippen gerundet sind. Wenn – wie in den meisten Sprachen – vordere Vokale gespreizt und hintere gerundet sind, dann begleitet folglich ein höherer F₃ einen höheren F₂ und umgekehrt. Das bedeutet, daß bei dieser Kombination F₃ F₂ bestätigt, also den auditiven Unterschied zwischen vorderen und hinteren Vokalen verstärkt. Vordere gerundete und hintere gespreizte Vokale dagegen führen zu feineren, weniger leicht wahrnehmbaren Unterschieden.²– Zudem wird bei offenen Vokalen der Lippenraum kleiner und die Lippenöffnung größer, was beides zur Erhöhung von F₃ beiträgt. Der Verlauf von F₃ bestätigt also jedenfalls den von F₁.

F₄ entsteht, wenn die Korona den Alveolen angenähert wird, und ist vor allem für Sibilanten wichtig.

5.4. Kardinalvokale

Daniel Jones definierte (1918) für die Klassifikation von Vokalen Standardreferenzpunkte, acht primäre und acht sekundäre:

Extrempunkte des Raumes sind hier wie folgt festgelegt:

1: so weit oben und vorn wie möglich, bevor die Zunge Reibung an den Alveolen produziert;
5: so weit hinten und unten wie möglich, bevor die Zunge Reibung an der Rachenrückwand produziert.

1 bis 4 sowie 5 bis 8 sind äquidistant. Für die primären Kardinalvokale sind die Lippen bei Nr. 1 - 5 gespreizt, bei Nr. 6 -8 gerundet; für die sekundären ist es umgekehrt. (Dies ist also unabhängig von 'vorn vs. hinten' festgesetzt worden.)

Das folgende Diagramm zeigt noch einmal die ersten beiden Formanten der Kardinalvokale, leicht schematisiert, aber annähernd realistisch. Es ist deutlich, daß F₂ (grün) von den hinteren zu den vorderen Vokalen stetig ansteigt. Es ist weniger deutlich, daß F₁ (violett) und F₂ bei den geschlossenen Vokalen weiter auseinanderliegen als bei den offenen.

Die Vokale und so auch die Kardinalvokale sind im Prinzip rein auditiv definiert; denn verschiedene Justierungen der Zunge können denselben auditiven Eindruck hervorrufen. Jones' Vokaltrapez ist eine Idealisierung, eine Mixtur aus Artikulation und Audition (bes. für die hinteren Vokale). Die Kardinalvokale sind in Großbritannien durch mündliche Tradition seit Jones überliefert worden. Sie ergeben jedoch kein regelmäßiges artikulatorisches System und lassen sich tatsächlich nur als auditive “Targets” (Zielpunkte) definieren.

5.5. Lippenrundung

Rein artikulatorisch gibt es zwei geschachtelte binäre Oppositionen:

1.	2.
gerundet
ungerundet	neutral
	gespreizt

Aber der zweite Gegensatz ist nirgends phonemisch, so daß Spreizung zur Vergrößerung des ersten Gegensatzes genutzt wird.

Lippenrundung senkt F₃ und ist deshalb, wie soeben gesehen, natürlicherweise mit hinteren Vokalen assoziiert, um die Senkung von F₂ zu verstärken.

Bei Konsonanten tritt Lippenrundung als sekundäre Artikulation unter der Bezeichnung Labialisierung auf.

5.6. Weitere Vokale und IPA-Symbole

Optimale Vokale befinden sich an der Peripherie des vokalischen Artikulationsraumes. Sprachen mit vielen Vokalen nutzen noch weitere, intermediäre Artikulationsstellen. Außerdem erzeugt Allophonie "unreine" Vokale.

Auf dem Vorne-Hinten-Parameter gibt es einen mittleren Wert, den die zentralen Vokale haben. Der wichtigste ist [ə], genannt “Schwa”. Im Deutschen tritt außerdem [ɐ] auf, und zwar in zwei ganz unterschiedlichen Funktionen:

In Dialekten wie dem Thüringischen ist es die Lautung von /a/.
Seit etwa 1960 hat es sich, von einer ursprünglich dialektalen Aussprache (etwa im Hessischen), zur Standardvariante von [ɚ] entwickelt; s.u.

Auch im Öffnungsgrad gibt es feinere Unterscheidungen. Im Deutschen z.B. werden (in Analogie zu dem Verhältnis [eː] : [ɛ] = [oː] : [ɔ]) kurze geschlossene Vokale leicht geöffnet und zentralisiert: [ɪ ʏ ʊ]. Die folgende Tabelle enthält die IPA-Symbole für die wichtigsten Vokale:

Für Deutsch ist noch wichtig: Schwa mit approximantem /r/ als zweitem Bestandteil: [ɚ]; d.i. der Laut, der in unakzentuierten Silben auftritt, <er> geschrieben (wie in Vater) und, wie soeben erwähnt, durch [ɐ] ersetzt wird.

5.7. Vokallänge

Die meisten Sprachlaute können ceteris paribus verschieden lang sein. Artikulatorisch besagt dies, daß die zugehörige Konstriktion verschieden lange beibehalten wird.

Das IPA-Symbol, das einen Vokal als lang bezeichnet, ist ein diesem folgender Doppelpunkt: [ː] (es unterscheidet sich typographisch leicht von einem gewöhnlichen Doppelpunkt). Mit IPA-Diakritika kann man drei Vokallängen (auch ‘Vokaldauer’ genannt) unterscheiden:

Diakritika für Vokallänge
Länge	Notation
kurz	a
halblang	aˑ
lang	aː

Wie alle anderen phonetischen Eigenschaften kann auch die Vokallänge in einer Sprache phonemisch, in einer anderen bloß phonetisch sein. Im Lateinischen, Yukatekischen und Deutschen gibt es zwei distinktive Vokallängen, im Estnischen drei.

Bloß phonetische Vokallänge ist durch andere Faktoren konditioniert:

Stimmhaftigkeit des folgenden Konsonanten konditioniert Vokallänge z.B. im Englischen:
Akzent auf dem Vokal (vs. auf der vorangehenden oder folgenden Silbe) konditioniert Vokallänge z.B. im Italienischen: curo [ˈkuːrɔ] “heile” vs. curò [kuˈrɔ] “heilte”.

Nicht absolute, sondern relative Länge zählt. Sie manifestiert sich vor allem im syntagmatischen Kontrast.

Jeder Vokal nähert ein auditives Target an. Davor und danach gibt es Übergänge. Soweit diese das artikulatorisch Notwendige nicht übersteigen, sind die Vokale rein. Bei Langvokalen gibt es häufig, z.B. im Englischen und anderswo, einen meist zentralen Gleitlaut (engl. glide), der dem Ziel vorangeht oder folgt: [f^əi:t] feet, [fɔ:^ə] for.³

Werden während der Artikulation eines Vokals zwei Ziele angenähert, wovon eines prominenter ist, ist es ein Diphthong; s.u..

5.8. Komplexe vokalische Artikulationen

5.8.1. Nasalierung

Nasalierung kann zu Vokalen - ebenso wie zu Konsonanten - hinzutreten; nasale Vokalität kann mithin als komplexe Artikulationsart analysiert werden. So entsteht die Opposition vom Typ [a] vs. [ã].

5.8.2. Gespanntheit

Gespannte Segmente werden unter erhöhter Anspannung der Artikulationsmuskulatur gesprochen. Andere Bezeichnungen für die Opposition 'gespannt/ungespannt' (engl. 'tense/lax') sind 'fortis/lenis'. Zu den Korrelaten zählen:

erhöhte Dauer
periphere vs. zentrale Position im vokalischen Raum
und das, was bei der Analyse afrikanischer Sprachen Advanced Tongue Root (ATR) genannt wird.

Ein konstantes IPA-Symbol für Gespanntheit gibt es nicht.

Im Deutschen sind [i y e ø o u] gespannt und [ɩ ʏ ɛ œ ɔ ʊ] ihre ungespannten Gegenstücke. Im Französischen sind alle Vokale außer [ə] gespannt.

5.8.3. Glottalisierung

Orale und nasale Vokale können glottalisiert (oder laryngalisiert) werden. So entsteht die Opposition vom Typ [a] vs. [a̰], die es z.B. im Yukatekischen (Mexiko) und im Tukuna (Brasilien) gibt.

5.8.4. Halbvokal und Diphthong

Artikulatorisch-phonetisch betrachtet ist ein Halbvokal ein Approximant. Phonologisch betrachtet nimmt er, entsprechend seinem intermediären Status, oft an einer Alternation zwischen stimmhaftem Frikativ, Halbvokal und geschlossenem Vokal teil, z.B. [ʝ ~ j ~ i]. Oft ist er ein Allophon eines Vokals, das keine Silbe bildet. Dazu muß dieser normalerweise geschlossen sein. Daher sind die primären Halbvokale [j] und [w], die sekundären [ɥ] und [ɰ].

[w] ist ein Labiovelar. Wegen seiner paradigmatischen Beziehungen zu den labialen Konsonanten wird /w/ bzw. [w] nicht selten unter die Labiale klassifiziert. Systematisch primär ist jedoch seine paradigmatische Beziehung zu /u/. Vokale haben eine palatale oder velare, aber keine labiale Artikulationsstelle. Statt letzterer sind sie vielmehr optional gerundet. Dasselbe gilt für Halbvokale. Daher ist [w] phonetisch als Velar zu klassifizieren. In den Phonemsystemen vieler Sprachen alterniert freilich [w] allophonisch mit [v], eben wegen seiner Labialität.

Ein Halbvokal steht normalerweise im Syntagma unmittelbar neben einem Vokal. Steht auf der anderen Seite ebenfalls ein Vokal (z.B. /awe/), so kann der Halbvokal den Silbenansatz für den zweiten Vokal abgeben, also /a•we/. Steht auf der anderen Seite ein Konsonant (z.B. /aws/), so bildet der Halbvokal zusammen mit dem Vokal einen Diphthong. Der Vokal ist dann der Gipfel des Diphthongs und der Silbe.

Phonetisch assimiliert sich der Halbvokal an den Gipfel des Diphthongs sowohl in Höhe als auch in Rundung. Daher ist z.B. im Deutschen /aj/ = [a^e] (z.B. Meise) und /oj/ = [ɔ^ɥ] (z.B. Mäuse).

Diphthongierung ist eine transitionale komplexe Artikulation. Näheres zur Phonotaktik der Diphthonge in Kap. 14.3.

5.9. Syllabizität

Ein Laut ist silbisch, wenn er Gipfel einer Silbe ist. Im einfachsten Falle sind Vokale silbisch, Konsonanten nicht. Allerdings ist dies eher eine Frage des syntagmatischen Kontrastes. D.h. in einer Lautsequenz bildet der jeweils prominenteste Laut den Silbengipfel, und dieser ist dann silbisch. Insbesondere ist der untergeordnete Teil eines Diphthongen unsilbisch.

Theoretisch (phonologisch) läßt sich ein unsilbischer Vokal von einem Halbvokal unterscheiden. Es gibt dafür auch verschiedene Symbole, wie die folgende Tabelle zeigt:

Phonetisch ist der Unterschied zwischen den Lauten der zweiten und der dritten Reihe freilich kaum zu objektivieren. Alles weitere in der Phonotaktik, Kap. 14.1.

5.10. Testfragen und Übungsaufgaben

(1 P.) Warum ergeben kleinere Resonanzräume höhere Formanten?
(1 P.) Warum ist F₃ desto niedriger, je mehr die Lippen gerundet sind?
(1 P.) Wie viele primäre Kardinalvokale gibt es?
(1 P.) Wie heißt dieser Vokal: [ə] ?
(1 P.) Nennen Sie eine Sprache mit zwei distinktiven Vokallängen.
(1 P.) Wie wird ein Laviovelar artikuliert?
(1 P.) Welches ist das IPA-Symbol des labiovelaren Halbvokals?
(2 P.) Nach welchen beiden Parametern wird die Zungenposition bei Vokalen beschrieben?
(2 P.) Warum ist F₁ bei geschlossenen Vokalen niedriger als bei offenen?
(2 P.) Welche Funktion erfüllt die übliche Assoziation von hinterer Artikulationsstelle mit Lippenrundung bei Vokalen?
(3 P.) Welche Diphthongen gibt es im Deutschen (mit je einem Beispiel)?

Folgende Arten von Übungen lassen sich zu zweit machen:

Diskrimination: A spricht zwei Vokale vor, die sich nur in einer Eigenschaft unterscheiden, und fragt, ob der erste oder zweite den gesuchten Wert der Eigenschaft hat. B antwortet 'der erste' bzw. 'der zweite'.
Bsp: A: 'Welcher Vokal ist gerundet: [i] - [y]?' - B: 'Der zweite'.
IPA und phonetische Eigenschaften: Die gleiche Übung, aber A schreibt die IPA-Symbole der beiden Vokale hin.
Transkription: A artikuliert verschiedene Vokale, B schreibt dafür die IPA-Symbole hin.
Artikulation: Die Umkehrung der vorigen Übung.
Artikulatorische Beschreibung: A spricht einen Vokal vor / schreibt das IPA-Symbol eines Vokals hin; B beschreibt ihn vollständig.
Konstruktion: A beschreibt einen Vokal vollständig; B artikuliert ihn / schreibt das IPA-Symbol dafür hin.

¹ Nur aus dem Mandarin (Chinesisch) ist ein alveolarer Vokal bekannt.

² Zur Position der vorderen gerundeten Vokale in der deutschen Phonetik, ihrer Aussprache und zur relevanten Praxis in DaF s. die separate Erklärung (auf Englisch).

³ Die Hochstellung eines segmentalen IPA-Symbols besagt, daß das Segment weniger prominent ist.