Sprachtheorie: Redeerzeugung und Redeverstehen

Dem naiven linguistischen Bewußtsein ist es selbstverständlich, daß die Rollen von Sprecher und Hörer bei der Sprachtätigkeit konvers sind. Der Sprecher hat eine Idee und wünscht, daß der Hörer diese kennenlerne. Er setzt sie folglich in das sprachliche Medium um. Der Hörer hingegen empfängt die Nachricht in dem vom Sprecher benutzten Medium und rekonstruiert die Idee, die am Ausgangspunkt war. Das Verhältnis scheint geradezu symmetrisch zu sein: Der Sprecher geht von der Bedeutung zum Ausdruck, der Hörer vom Ausdruck zur Bedeutung.

Die meisten Grammatikmodelle, die über die traditionelle Grammatik mit ihrer statisch-kategorischen Untergliederung des gesamten Bereichs in funktionell-strukturelle Domänen hinausgehen, sehen mindestens einen Aufbau der sprachlichen Einheiten in mehreren Ebenen, oft sogar einen schrittweisen, prozeßhaften Übergang von einer Ebene zur anderen vor. Dann drängt sich die Analogie zur Tätigkeit, sei es des Sprechers, sei es des Hörers, von selbst auf. Daher bieten solche Grammatikmodelle häufig entweder Erzeugungs- oder Erkennungsgrammatiken. Einige von ihnen sind explizit analog zur Tätigkeit des Sprechers oder des Hörers modelliert. Z.B. plädiert Chafe (1970, ch. 7), dessen Modell eine Variante der generativen Semantik darstellt, ausführlich dafür, daß eine Grammatik ebenso wie der Sprecher von der Bedeutung zum Ausdruck übergehen müsse.

Die Perspektiven des Sprechers vs. des Hörers auf das Sprachsystem werden in der Sprachbeschreibung als onomasiologische vs. semasiologische Beschreibung nachgebildet. Diese Dichtomie ist jedoch für die Fragestellung dieses Kapitels nur mit zwei Einschränkungen relevant:

Die Frage, ob eine Grammatik in diesem Sinne gerichtet sein müsse oder dürfe, firmierte in der Grammatiktheorie der generativen Linguistik als die Direktionalitätsproblematik. Sie hatte auch dort zwei Aspekte, einen formalen und einen psychologischen. Unter dem formalen Aspekt ist es lediglich wichtig, ob eine Grammatik dieselbe Menge von Ausdrücken beschreibt, gleichgültig, in welcher Richtung ihre Prozesse, Regeln oder sonstigen Abbildungsvorschriften durchlaufen werden. Dabei ist es ohne Belang, ob der Verlauf, in dem die Grammatik Ausdruck mit Bedeutung assoziiert, ein plausibles Gegenstück in der realen Tätigkeit des Sprechers oder Hörers hat. Unter dem psychologischen Aspekt dagegen betrifft Direktionalität gerade das Problem, ob ein Grammatikmodell die Tätigkeit des Sprechers oder Hörers modellieren soll und, positivenfalls, ob ein bestimmtes Modell das adäquat tut.

Auch so gefaßt, können wir diese Problematik hier auf sich beruhen lassen, da sie in die Grammatiktheorie gehört. Soviel sei jedoch klargestellt, daß, falls eine Grammatik der Sprachtätigkeit des Sprechers oder Hörers in ihrem Aufbau folgt, sie dennoch keinesfalls alle ihre Aktivitäten abbilden kann, weil nicht alles, was Sprecher und Hörer zum Zwecke der Verständigung tun müssen, im Sprachsystem kodiert (und also durch Grammatik und Lexikon zu beschreiben) ist. Für die Sprachtheorie ist jedoch die Frage relevant, was wir über das Wesen und Funktionieren der Sprache lernen, wenn wir sie einmal vom Gesichtspunkt des Sprechers, dann vom Gesichtspunkt des Hörers aus beschreiben.

Die Tätigkeiten des Sprechers und des Hörers sind in Wahrheit nur scheinbar bzw. nur zum geringsten Teil konvers. Dies wird in Kap. 4.4 ausführlich begründet. Hier werden wir sie zunächst je einzeln behandeln. Sie heißen Redeerzeugung und Redeverstehen. Dies sind psychologische Begriffe, die nicht ganz deckungsgleich mit den englischen Termini speech production und speech perception sind. Die letzteren beziehen sich meist lediglich auf den phonetischen Teil der gesamten Tätigkeit; das heißt, speech production meint die mit der Lautartikulation, speech perception die mit der Lautwahrnehmung zusammenhängenden Prozesse. Diese beiden Termini werden übrigens ihrerseits meistens falsch ins Deutsche übersetzt, nämlich als Sprachproduktion und Sprachperzeption. Was hier produziert bzw. wahrgenommen wird, ist genaugenommen nicht Sprache (d.h. ‘langue’ oder ‘langage’), sondern Rede (‘parole’).

Als empirische Theorie basiert die Sprachtheorie bei Aussagen über Redeerzeugung und Redeverstehen notwendig auf empirischer Evidenz. Diese kommt natürlich zum großen Teil aus der Psycholinguistik. In erster Linie resultiert sie aus dem spontanen Sprachverhalten. Z.B. wird beobachtet, an welchen Stellen Sprecher Pausen machen, in welcher Weise sie sich versprechen und auf welche Weise die Hörer sich verhören oder mißverstehen. In zweiter Linie resultiert die psycholinguistische Evidenz aus Experimenten, z.B. solchen, wo die Aufmerksamkeit vom dargebotenen Sprachmaterial abgelenkt wird und entsprechende Komplikationen bei der Verarbeitung beobachtet werden oder wo Sprachmaterial künstlich verändert und dann geprüft wird, welchen Einfluß die Veränderungen auf das Verstehen haben. Quantitativ stehen in der Psycholinguistik die experimentellen Untersuchungen im Vordergrund. Unter methodologischem Gesichtspunkt können sie freilich nur subsidiäre Funktionen bei der Erkenntnisgewinnung haben; denn natürliche Sprachtätigkeit ist kreativ (Lehmann 2017) und schafft Bedeutungen. Diese beiden Eigenschaften werden in der Laborsituation systematisch unterdrückt. Daher tritt hier ein prinzipielles Validitätsproblem auf, nämlich ob das Sprachverhalten unter solchen Bedingungen noch dasselbe wie unter natürlichen Bedingungen ist oder ob die Versuchspersonen nicht vielmehr ihre Zuflucht zu anderen Strategien des Erzeugens und Verstehens nehmen, die der Laborsituation angepaßt sind (vgl. Knobloch 1984).

Handlung

Ein Sprechakt ist im weitesten Sinne eine Handlung. Als solche ist er zielorientiert, d.h. er setzt voraus, daß Sprecher und Hörer eine gewisse Aufgabe vor sich sehen und diese durch Sprachtätigkeit zu lösen versuchen. An einer solchen Handlung lassen sich (mit Miller et al. 1960 und Leontjev 1971: 36) drei Phasen unterscheiden:

Dieses allgemeine Schema menschlicher Handlungen ist im Prinzip auf sprachliche Handlungen anwendbar. Der Sprecher hat eine Redeabsicht, d.h. er will ein gewisses Ziel erreichen, das im weitesten Sinne mit den beiden Hauptfunktionen der Sprache, Kognition und Kommunikation, zusammenhängt. In der ersten Phase des Sprechaktes konstruiert er sich eine Aufgabe, die in der Verwirklichung der Redeabsicht besteht. Er entwirft einen Plan für seine Äußerung und spezifiziert ihn durch Konstruktion sprachlicher Einheiten. Im zweiten Schritt führt er den Plan aus, d.h. er artikuliert die den geschaffenen Bedeutungen entsprechenden Laute und geht damit zu äußerer Tätigkeit über. Schließlich kontrolliert er das, was er gerade gesagt hat, und nimmt gegebenenfalls Berichtigungen vor. Ähnlich plant der Hörer die durch den Sprecher angeleitete Konstruktion von Sinn, führt diese anhand des auditiven Eindrucks aus und kontrolliert sie zum Schluß anhand anderer Kriterien.

Die einzige Komplikation bei der Anwendung dieses Modells auf die Sprachtätigkeit liegt darin, daß sie auf weite Strecken innerlich abläuft, so daß die Ausführungsphase nicht leicht abgrenzbar ist. Das betrifft vor allem die Konstruktion sprachlicher Bedeutung auf beiden Seiten, beim Hörer aber auch die gesamte auditive Perzeption. Wir werden im folgenden annehmen, daß die Konstruktion sprachlicher Bedeutung Teil der Planung des Sprechers ist und daß auf Seiten des Hörers die Ausführungsphase die Dekodierung des auditiven Eindrucks umfaßt. – Gehen wir nun den ganzen Prozeß im einzelnen durch.

Redeerzeugung

Planung

Konstruktion einer Idee

Am Anfang des Sprechaktes steht eine Idee, allerdings nicht notwendigerweise genau eine. Häufig schwirren uns mehrere Ideen gleichzeitig durch den Kopf. Es kann sich um mehrere Dinge handeln, die wir sagen wollen, aber auch um Dinge, die wir nicht sagen wollen, die uns aber nichtsdestoweniger gleichzeitig mit dem Sprechen durch den Kopf gehen. Eine von den Ideen wählen wir zur weiteren Bearbeitung und sprachlichen Umsetzung aus; die konkurrierenden Ideen unterdrücken wir, mindestens im Hinblick auf die sprachliche Umsetzung. Eine wichtige Evidenz dafür, daß dies so ist, sind die sogenannten Freudschen Versprecher, also diejenigen Versprecher, wo eine konkurrierende Idee sich nicht ganz hat unterdrücken lassen. Eines von Freuds überzeugendsten Beispielen (aus Meringer & Meyer 1978) ist das, wo ein Redner sagt:

Freuds Erklärung, daß der Sprecher gleichzeitig gedacht habe, die zum Vorschein gekommenen Dinge seien Schweinereien, wirkt plausibel. Die unterdrückten und sich dann doch vordrängenden Ideen müssen durchaus nicht immer einen delikaten oder tabuisierten Aspekt haben. Zum Beispiel mußte ich einmal, als ich das schöne Wetter zum Rasenmähen nutzen wollte, feststellen, daß der Rasenmäher kaputt war, und ihn zur Reparatur bringen. Ich sagte:

Hier hatte sich der Gedanke, daß der Rasenmäher kaputt war, in einen Satz hineingedrängt, in dem es darum gar nicht ging. Das Bemerkenswerte an solchen Fehlleistungen ist, daß die konkurrierende Idee, wenn sie sich denn in die sprachliche Umsetzung der dominanten Idee hineindrängt, ja ihrerseits mindestens teilweise sprachlich ausgearbeitet werden muß. Das besagt, daß uns nicht nur gleichzeitig mehrere Ideen im Kopf herumschwirren, sondern daß wir manchmal auch mehrere davon gleichzeitig sprachlich weiterverarbeiten.

Im einfachsten Falle wählen wir freilich genau eine Idee zur weiteren Verarbeitung und sprachlichen Umsetzung aus. Eine solche Idee hat zwei Aspekte, einen inhaltlichen und einen intentionalen.

In dieser Doppelnatur der sprachlich zu übermittelnden Idee zeigen sich die beiden Grundfunktionen der Sprache, die epistemische und die soziale; denn der Gedanke bezieht sich auf eine Erkenntnis, die illokutive Kraft auf den sozialen Kontakt.

Die Idee kommmt dem Sprecher natürlich nicht unabhängig von seiner Verfassung und Umgebung; sie pflegt vielmehr in Zusammenhang mit seiner übrigen Tätigkeit zu stehen und ebenso in Zusammenhang mit der Situation, in der der Hörer sich befindet, und mit den Tätigkeiten, in die er involviert ist. Wenn der Sprecher sich also die Aufgabe stellt, daß der Hörer seine, des Sprechers, Idee zu seiner eigenen mache, also den Gedanken übernehme und sich der illokutiven Kraft beuge, so muß er diese Umstände des sprachlichen und außersprachlichen Kontextes einbeziehen. Dies nennt man (mit Bühler 1934:158f) die sympraktische Einbettung der Äußerung.

Die Idee des Sprechers greift in ganz erheblichem Umfang auf Einheiten und Assoziationen zurück, die in seinem Langzeitgedächtnis gespeichert sind. Keine Idee entsteht völlig ex nihilo. Sehr oft ist nichts an ihr neu. Sie kann zufällig zum wiederholten Male kommen, oder es kann eine routinemäßige Idee sein, z.B. eine Anweisung, die dem Hörer in bestimmten Situationen gegeben werden muß, oder eine Erkenntnis, die in bestimmten, z.B. pädagogischen Situationen immer wieder übermittelt werden muß. Sicher sind eine ganze Reihe von Ideen fix und fertig im Langzeitgedächtnis abgespeichert. Sie können sich z.B. in Form von Sprichwörtern konkretisieren. Eine Idee ist, analytisch betrachtet, eine Verknüpfung von Bewußtseinsinhalten. Diese Verknüpfung kann, wie gesagt, immer schon fertig vorhanden sein, sie kann aber auch erst beim Sprechakt vorgenommen werden. Die Verknüpfung war dann noch nicht im Langzeitgedächtnis gespeichert, sondern wird erst im Kurzzeitgedächtnis zwischen den aus dem Langzeitgedächtnis abgerufenen Größen hergestellt.

Eine Idee kann verschieden komplex sein. Sie kann in einer einzigen Verknüpfung bestehen und sich in einem kernigen Satz ausdrücken lassen, z.B. Kleider machen Leute. Sie kann aber auch in einer Vielzahl von Verknüpfungen, in einer ganzen Argumentationskette bestehen, wie z.B. die Idee zu diesem Kapitel. Wenn nun eine Idee komplex ist und nicht fertig aus dem Gedächtnis abgerufen werden kann, so kann sie auch im Kurzzeitgedächtnis nicht fertig ausspezifiziert werden, bevor die Ausführungsphase beginnt. Denn die Kapazität des Kurzzeitgedächtnisses ist begrenzt; es kann nicht mehr als etwa sieben Einheiten speichern. Hiermit sind autonome Einheiten gemeint, also solche, die ihrerseits ganzheitlich sind, sich jedoch nicht zu einer ganzheitlichen höheren Einheit zusammenfassen lassen. Es können also sieben einzelne Phoneme, sieben einzelne Wörter oder sieben fertige Syntagmen sein. Höhere ganzheitliche Einheiten gibt es in der Sprache wohl nicht; jedenfalls kann man nicht sieben (unzusammenhängende) Sätze im Kurzzeitgedächtnis speichern. Das bedeutet, daß eine komplexe Idee bei Einsetzen des Sprechens noch nicht fertig ausgearbeitet ist, sondern erst im Rohentwurf, wie ein Gerüst, vorliegen kann. Sie wird dann schrittweise weiter entwickelt; "l'idée vient en parlant", wie H. v. Kleist (s.a.) sagt. Es kann auch durchaus sein, daß der zunächst dunkel vorschwebende Argumentationsplan mittendrin geändert wird, weil sich aufgrund der Tatsache, daß eine der einleitenden Teilideen im Laufe des Sprechens präzise gefaßt wurde oder der Hörer etwas einwarf, die Situation plötzlich ändert.

Die in der Idee hergestellten Verknüpfungen verbleiben zu einem Teil innerhalb dessen, was ich Gedanke genannt habe, zu einem anderen Teil beziehen sie die illokutive Kraft mit ein und verbinden diese mit dem Gedanken. Für einen bestimmten Gedanken, z.B. den des Einkaufs von Bananen durch Fritz, kann der Sprecher verschiedene Verwendungen haben. Er kann ihn z.B. als Tatsache behandeln und diese dem Hörer mitteilen wollen. Dann wird er vielleicht sagen: Fritz kauft Bananen. Er kann andererseits über die Entsprechung des Gedankens zur Realität unsicher sein und wird dann versuchen, vom Hörer darüber mehr zu erfahren. Dann kann er etwa sagen: Kauft Fritz Bananen? Schließlich kann er wünschen, der Gedanke möge Wirklichkeit werden, und den Hörer in dieser Hinsicht beeinflussen wollen. Dann kann er sagen: Fritz soll Bananen kaufen. Die sprachlichen Strukturen solcher Beispiele zeigen deutlich, daß Gedanke und illokutive Kraft einander durchdringen. Das heißt, wir haben nicht auf der einen Seite einen Gedanken und auf der anderen Seite eine illokutive Absicht und kombinieren die beiden dann sekundär frei miteinander, so wie die Darstellung bis hierhin glauben machen konnte, sondern Gedanke und illokutive Kraft sind integrierte Bestandteile der uns vorschwebenden Idee und verschmelzen daher auch im sprachlichen Ausdruck.

Kommunikativer Dynamismus

In einem Prozeß, der "innere Sprache" (L. Vygotski) genannt wird, gewinnt die Idee nach und nach Gestalt. Sie wird semantisch entfaltet, d.h. einige ihrer Aspekte werden relativ zu den anderen expandiert, andere werden verdichtet (hierzu und zum folgenden Knobloch 1984: 236-245). Dies geschieht im wesentlichen mit Rücksicht auf den Hörer. Der Sprecher macht gewisse Vorannahmen darüber, welche Aspekte der Idee dem Hörer selbstverständlich sein werden, welche er leicht schlucken wird und welche ihm ausführlich dargestellt und in ihrer Bedeutsamkeit nahegebracht werden müssen. Hier setzt bereits eine Dimension der sprachlichen Gestaltung an, die funktionelle Satzperspektive.⁰¹.

Zur funktionellen Satzperspektive gehören mindestens vier Bereiche, die wir mit den folgenden Termini bezeichnen können:

Die Informationsstruktur betrifft den Unterschied zwischen dem, was als gegeben, dem Hörer bekannt, als zwischen Sprecher und Hörer etabliert vorausgesetzt wird, und dem, was nach der Vermutung des Sprechers für den Hörer unvertraut, neu sein wird. Das Bekannte wird der Sprecher bei der semantischen Entfaltung mehr komprimieren, das Neue mehr expandieren. Wenn es z.B. um ein Besitzverhältnis zwischen Fritz und einem Hund geht, so wird der Sprecher Fritz' Hund sagen, wenn er das Verhältnis als bekannt voraussetzt, jedoch Fritz hat einen Hund, wenn er meint, es sei für den Hörer neu.

Die Darstellungsstruktur betrifft die Einbettung des auszudrückenden Gedankens in einen Zusammenhang, sein Anschluß an etwas, das den Hintergrund für die Hauptsache abgibt. Sie führt zu einer Unterteilung des Gedankens in Exposition und Eventum (s. Lehmann 1984, Kap. 4.5). Wenn der Sprecher etwa sagt:

Die Thema-Rhema-Struktur oder Aussagestruktur einer Äußerung betrifft den Unterschied zwischen dem Thema, also dem, worüber etwas gesagt werden soll, und dem Rhema, also dem, was darüber gesagt werden soll. Wenn es sich wieder um das Besitzverhältnis zwischen Fritz und dem Hund handelt, so kann man Fritz zum Thema machen und sagen: Fritz hat einen Hund, oder man kann den Hund zum Thema machen und sagen: Der Hund gehört Fritz. Die Thema-Rhema-Gliederung hängt eng zusammen einerseits mit der Informationsstruktur und der Darstellungsstruktur, andererseits mit der syntaktischen Struktur, soweit sie durch die Beziehung von Subjekt und Prädikat gekennzeichnet ist. Sie reduziert sich jedoch auf keinen dieser anderen Aspekte. Angenommen, ein Sprecher äußert zunächst den Satz

In beiden Fortsetzungen ist das Kommen gegeben, alles andere dagegen neu. Eventuell setzt der Sprecher Onkel Fritz als bekannt voraus. In jedem Falle ist jedoch die Informationsstruktur der beiden Alternativen dieselbe. Die Thema-Rhema-Struktur ist jedoch verschieden, denn im ersten Falle ist das Thema die Vorstellung, daß einer zuerst gekommen ist, und das Rhema, daß dies Onkel Fritz war; im zweiten Falle dagegen ist das Thema Onkel Fritz und das Rhema die Tatsache, daß er zuerst kam. Ferner befindet sich in beiden Fällen die Exposition im ersten Satz, das Eventum im zweiten, und die Subjekt-Prädikat-Struktur ist ebenfalls in beiden Alternativen des zweiten Satzes dieselbe.

Der vierte Faktor der funktionellen Satzperspektive ist die Emphase. Sie tritt am klarsten im Kontrastfokus zutage, wo die Richtigkeit einer bestimmten lexikalischen Einsetzung und damit implizit die Falschheit aller denkbaren Alternativen hervorgehoben wird. In dem Beispiel

Die Operationen der funktionellen Satzperspektive formen die auszudrückende Bedeutung nach kommunikativen Gesichtspunkten. Die Darstellungsstruktur orientiert den Hörer in der Situation, die Informationsstruktur hilft ihm, neue Information an bereits verfügbare anzuknüpfen. Durch die Thema-Rhema-Struktur verdeutlicht der Sprecher, was er worüber sagen will, und durch die Emphase hebt er das hervor, was ihm am wichtigsten ist. Die Formung der Idee nach diesen Gesichtspunkten geht Hand in Hand mit ihrer semantischen Entfaltung. Diese stellt sich dar als der Grad an Explizitheit, der Aufwand an sprachlichen Mitteln, den der Sprecher den verschiedenen Teilen der Idee angedeihen läßt. Die semantische Entfaltung der Idee variiert zwischen Expansion und Verdichtung (vgl. Brettschneider 1980; Knobloch 1984: 240). Expandieren wird der Sprecher um seiner eigenen Interessen willen den Teil der Idee, auf dem seine Emphase liegt, und um des Hörers willen den Teil, der neue Information enthält. Verdichten wird der Sprecher den extrafokalen Teil seiner Idee und den Teil, der dem Hörer bekannte Information enthält. Z.B. treibt ein Spaltsatz mehr Aufwand an grammatischen Mitteln als ein einfacher Satz mit Akzent auf dem fokalen Element. Dieser höhere Grad an Explizitheit spiegelt die kommunikative Wichtigkeit, die der Sprecher dem Fokus beimißt.

Alle Stilmittel stellen eine gewollte Abweichung vom Gewöhnlichen dar. Es gibt auch Stilmittel, die von den gerade geschilderten Grundsätzen der semantischen Entfaltung bewußt abweichen. Bei der Prägnanz z.B. faßt sich der Sprecher kürzer, als es der Wichtigkeit oder Bedeutungsschwere seiner Nachricht entspräche. Allerdings wird Prägnanz, angemessen eingesetzt, Wichtiges und Unwichtiges gleichermaßen reduzieren und nicht etwa nur das Wichtige.

In jedem der semantischen Bereiche des Sprachsystems, also z.B. der Possession oder der Beteiligung von Partizipanten an einem Vorgang, gibt es eine Auswahl von grammatischen Mitteln, die sich im Grade ihrer Explizitheit voneinander unterscheiden (s. z.B. Seiler 1983). Bei der sprachlichen Umsetzung einer Idee, die mit einem solchen semantischen Bereich zu tun hat, trifft der Sprecher nach kommunikativen Gesichtspunkten eine Wahl zwischen diesen Mitteln. Wenn es z.B. um die possessive Beziehung zwischen Fritz und einem Hund geht, hat der Sprecher unter anderem die Wahl zwischen der verdichteten Konstruktion

Die alternativen Formulierungen einer Idee können sich in diesem Sinne im Grade ihrer Explizitheit unterscheiden. Daneben sind Varianten möglich, die gleich explizit und im gegebenen Kontext synonym sind. So ist

Wiederum gibt es Evidenz aus Versprechern, daß der Sprecher solche alternativen Formulierungen seiner Idee tatsächlich in Betracht zieht. Bezüglich einer possessiven Beziehung liegt der Versprecher vor:

Bei dieser letzten Fehlleistung spielt zusätzlich eine Rolle, daß das Kurzzeitgedächtnis des Sprechers überfordert war. Alle diese Versprecher weisen eine Kontamination zwischen zwei möglichen Formulierungen einer Idee auf. Hier liegen also Fälle vor, wo der Sprecher sich nicht rechtzeitig zwischen den alternativen Formulierungen entschieden bzw. vergessen hat, für welche Alternative er sich entschieden hatte. Auch hier ist wiederum bemerkenswert, daß der Sprecher offenbar die Alternativen parallel ausarbeitet.

Grammatische Strukturierung

Im einfachsten Falle wird der Sprecher sich freilich auf die Ausarbeitung genau einer der möglichen Alternativen konzentrieren. Die Ausgangsidee enthält nur den Kern und die groben Umrisse dessen, was der Sprecher sagen wird. Sie wird durch Anwendung der Operationen der funktionellen Satzperspektive geformt, und es wird ihr eine Richtung, eine zeitliche Struktur gegeben. Die semantische Entfaltung bedeutet bereits eine semantische und syntaktische Strukturierung der Idee. Der Sprecher entwirft einen syntaktischen Rahmen für seine Äußerung und weist den Einzelbedeutungen, die er verknüpft, Rollen in diesem Rahmen zu. Es gibt Evidenz dafür, daß diese semantische Struktur jeweils für einzelne Teile der Äußerung fertiggestellt wird, bevor zu jeder Einzelbedeutung der Ausdruck gefunden ist (vgl. Levelt & Maassen 1983). Die Sprechpausen ungeübter Sprecher verraten zum Teil Wortfindungsschwierigkeiten. Sie kommen häufig nach einleitenden grammatischen Formativen wie der Konjunktion daß oder dem definiten Artikel und unmittelbar vor einer lexikalisch zu füllenden Konstituente, etwa einem Substantiv, vor. Das bereits gesetzte Formativ zeigt, daß die syntaktische Struktur der so eingeleiteten Konstituente mindestens in groben Zügen schon geplant ist, bevor alle lexikalischen Einsetzungen in dieser Konstituente feststehen.

Planung und Sprechen sind in der Zeit ablaufende Tätigkeiten. Der Sprecher muß sich zunächst der Ausarbeitung dessen widmen, was er als nächstes zu sagen hat, und kann nicht gleichzeitig das ausarbeiten, was erst später drankommt. Andererseits ist es doch so, daß er das, was er als nächstes sagt, strukturiert im Hinblick auf das, was er als übernächstes sagt. Wenn der Sprecher z.B. einen Satz mit zwar einleitet, so hat er damit die Vorentscheidung getroffen, daß er einen der nächsten Sätze mit aber einleiten wird. Und wenn der Sprecher entweder sagt, hat er schon entschieden, daß er demnächst oder sagen wird. Das besagt, daß für die nachfolgenden Äußerungen oder Teile einer komplexen Äußerung im voraus ein semantosyntaktischer Rahmen mit grammatischen Wegmarken oder Stützwörtern, z.B. in Form von Konnektiven, abgesteckt wird. Wenn der Sprecher dann zu dem folgenden Teil der Rede kommt, wird er sich an diesen Wegmarken orientieren und den Rahmen ausfüllen (vgl. Knobloch 1984: 241-244).

Wortwahl

Bei der Besetzung der semantosyntaktischen Struktur mit Wörtern passieren ebenfalls gewisse Sorten von Versprechern, die ein Licht auf die Struktur des mentalen Lexikons, den Vorgang der Wortfindung bzw. Wortwahl und allgemeiner auf die grundlegende Operation der Selektion werfen. Häufig sind Substitutionen von Antonymen, so wenn jemand sagt

Etwas anders ist es mit den Kontaminationen von Wörtern, wenn also aus past und by py und aus absacken und versickern absackern gebildet wird. Bei der lexikalischen Suche nach einem Ausdruck für eine gegebene Bedeutung stößt der Sprecher hier auf zwei gleichermaßen mögliche Ausdrücke. Im Normalfalle wird er sich rechtzeitig zwischen den Alternativen entscheiden. Bei diesen Versprechern aber gelingt ihm das nicht, beide werden an der fraglichen Stelle der Struktur eingesetzt und verschmelzen miteinander. Dies zeigt, daß eine der Aktivitäten bei der Redeerzeugung die Wahl zwischen Synonymen ist. Anders ausgedrückt, man kann unterscheiden die Identifikation eines Significatums als ersten Schritt, welche normalerweise die Identifikation eines Sprachzeichens involviert, und die Abbildung dieses Significatums auf ein Significans. Die erwähnten Fehler bei der Antonymenwahl passieren im ersten Schritt, die Kontaminationen von Synonymen beim zweiten.

Bei Wortfindungsschwierigkeiten wird der Ausdruck, das Significans, des gesuchten Wortes schrittweise angenähert (vgl. Brown & McNeill 1969). Zuerst erinnert man sich an den Anlaut und Auslaut sowie die Silben- und Akzentstruktur des gesuchten Wortes, während die Natur und Reihenfolge der Segmente in seiner Mitte erst zum Schluß gefunden werden. Daraus ist zu schließen, daß jene Aspekte des Significans stärker im Speicher eingeprägt sind, die restlichen jedoch schwächer. Unter informationstheoretischen Gesichtspunkten dürfte es so sein, daß die von der Speicherung bevorzugten Aspekte des Significans diejenigen sind, die für die Distinktheit des Wortes am wichtigsten sind. Sie können ausreichen, das Wort zu erkennen, reichen allerdings, wie die Wortfindungsschwierigkeiten zeigen, nicht aus, es zu erzeugen.

Während der Zugriff auf das gesuchte Wort bei den zuvor angeführten Beispielen von Substitution und Kontamination nach semantischen Gesichtspunkten fehlgeleitet wird, kann er auch nach phonologischen Gesichtspunkten fehlgeleitet werden. Bei den sogenannten Malapropismen wählt der Sprecher versehentlich ein Wort, das dem gesollten Wort phonologisch ähnelt, semantisch jedoch nichts mit ihm zu tun hat. So sagte jemand

Wir können schließen, daß die Wörter im mentalen Lexikon nicht wie in einem gewöhnlichen Wörterbuch aufgereiht sind, sondern nach verschiedenen Gesichtspunkten assoziative Beziehungen zueinander eingehen, also nach verschiedenen Dimensionen gleichzeitig geordnet sind. Es gibt natürlich auch nicht ein Lexikon für den Sprecher mit semantisch begründeter Anordnung und eins für den Hörer mit phonologisch begründeter Anordnung, sondern, wie die Malapropismen zeigen, insgesamt nur ein mehrdimensional strukturiertes Lexikon für den Sprecher/Hörer. Diese assoziativen oder auch paradimatischen Beziehungen dienen dem Sprecher bei der Wortsuche zur Orientierung, leiten ihn allerdings manchmal auch fehl.

Linearisierung

Die semantosyntaktische Struktur, welche die in dem auszudrückenden Gedanken vorgenommenen Verknüpfungen sprachlich wiedergibt, ist eine hierarchische, mehrdimensionale Struktur. Nun hatten wir in Kap. 3.3.1.2 gesehen, daß die primäre Dimension des akustischen Mediums, in das der Gedanke umgesetzt wird, die zeitliche, sukzessive ist und daß seine zweite Dimension, die simultane, für die Anordnung von bedeutungstragenden Einheiten nur eine marginale Rolle spielt. Die bedeutungstragenden Einheiten müssen also in eine Reihe gebracht, linearisiert werden. Soweit der Sprecher bei der Linearisierung eine Wahl hat, wird er sie, wie zuvor schon gesagt, nach Gesichtspunkten der funktionellen Satzperspektive, vor allem der Darstellungs- und der Thema-Rhema-Struktur, vornehmen. Zum Teil hat er auch keine Wahl, sondern die Linearisierung ist durch Regeln der Grammatik vorgeschrieben.

Die Evidenz der Versprecher wirft auch ein Licht auf die andere grundlegende Operation der Sprachtätigkeit, die Kombination, und weist insbesondere darauf hin, daß die Linearisierung tatsächlich ein separater Schritt in der Redeerzeugung ist und nicht mit der semantosyntaktischen Planung zusammenfällt. Den bei der Selektion unterlaufenden Substitutionsfehlern entsprechen hier Permutationsfehler. Es kommen Metathesen ganzer Wörter wie in dem folgenden Beispiel vor:

Die Flexionsmorphologie wird offenbar teils vor, teils nach der Linearisierung spezifiziert, soweit man das aus den Versprechern schließen kann. Denn einerseits gibt es Transpositionen von Morphemen, wie etwa in dem Beispiel

In jedem Fall erteilen solche Transpositionen und Metathesen von bedeutungstragenden Einheiten Aufschluß über den Umfang der Kette, die jeweils im Zusammenhang linearisiert und als ganze zur weiteren Verarbeitung bereitgestellt wird. Die Transposition des Pluralmorphems in dem vorletzten Beispiel übersprang immerhin drei Wörter und eine Nebensatzgrenze; nie jedoch werden Satzgrenzen oder mehr als sieben Wörter übersprungen. Der Schluß liegt nahe, daß dies mit der Kapazität des Kurzzeitgedächtnisses zusammenhängt.

Bei der Linearisierung wird eine Ausgabekette zusammengesetzt aus den Significantia, die aus dem Lexikon abgerufen wurden. Für das phonologische Wort, also einen Abschnitt der Kette, der phonologisch zusammenhängt, wird eine sequentielle Struktur erstellt, die aus Silben und Segmenten zusammengesetzt ist. Diese Sequenz wird zunächst nach phonologischen Regeln angepaßt und schließlich an einen sogenannten Pufferspeicher oder Ausgabespeicher weitergegeben. Damit endet die Phase der Planung.

Ausführung

Die zweite Phase der Handlung ist ihre Ausführung. Diese beginnt damit, daß die im Puffer zwischengespeicherte Kette abgelesen wird. Man kann sich das so vorstellen, daß eine Ablesevorrichtung mit einem Fenster von links nach rechts über die Kette geht und die Segmente für die Ausgabe aktiviert. Das Fenster umfaßt allerdings mehr als ein Segment, so daß zwar das Segment, das jeweils an der Reihe ist, am stärksten aktiviert wird, jedoch einerseits die Aktivierung der schon drangewesenen Segmente noch anhält und andererseits die unmittelbar folgenden Segmente gleichzeitig schon voraktiviert werden. Auch die paradigmatischen Assoziationen eines jeden Segments werden hier wieder wirksam. So kann es passieren, daß für das gesollte Segment ein ähnliches substituiert wird, wie in dem Versprecher Manover statt Manöver. Häufiger wird eines der voraktivierten Segmente vorweggenommen, und zwar fast immer ein solches, welches dem intendierten Segment ähnlich ist und eine ähnliche syntagmatische Position wie dieses hat. So kommen etwa Metathesen wie Pilotik statt Politik und Plobrem statt Problem zustande. Die Strecken, über die solche Versetzungen gehen, geben wieder Aufschluß über den Skopus der Voraktivierung beim Ablesen der Kette: Es sind bis zu sieben Segmente.

Die abgelesenen Segmente werden nun dem für die Innervierung der phonatorischen und artikulatorischen Muskulatur zuständigen Subsystem weitergegeben. Sprachtheoretische und phonetische Argumente konvergieren in dem Ergebnis, daß die primäre mit dem Segment assoziierte phonetische Information auditive, nicht artikulatorische ist. Denn das Ziel des Sprechers ist es, die von ihm geschaffenen Bedeutungen interpersonal verfügbar zu machen. Dazu muß er gewisse auditive und also akustische Gestalten erzeugen. Die Bewegungen der Artikulationsorgane sind selbst nicht Ziele, sondern im Gegenteil das hierarchisch niedrigste Mittel, das eingesetzt wird, um das unmittelbare Ziel, die Erzeugung gewisser akustischer Gestalten, zu erreichen (s. zur teleonomischen Hierarchie). Diese Mittel müssen den jeweils herrschenden Bedingungen angepaßt werden, sind also nicht pro Segment oder auch nur pro Silbe oder Wort ein für allemal vorgegeben. Z.B. wird ein [e] nach einem palatalen Segment durch eine völlig andere Artikulationsbewegung erreicht als nach einem velaren Segment. Die Zungenbewegungen für einen gegebenen Vokal sind sehr verschieden, je nachdem, ob man mit weit offenem Munde oder mit zusammengebissenen Zähnen spricht; und besondere Anpassungen sind erforderlich, wenn man z.B. mit vollem Munde spricht. Die aus dem Puffer abzulesende Lautkette stellt also eine Folge von sogenannten akustischen Targets dar. Mithin muß zwischen das Ablesen der Kette und die Artikulation ein Mechanismus treten, in dem die unter den herrschenden Bedingungen optimalen Artikulationsbewegungen berechnet werden.

Dies geschieht natürlich nicht für jedes Segment einzeln. Wie das gerade gegebene Beispiel des [e] zeigt, wird der Kontext in die Berechnung einbezogen. Die Artikulationsbewegungen werden jeweils rechtzeitig in Gang gesetzt, um ihr Ziel zum Sollzeitpunkt zu erreichen; und wenn sie nicht für die folgenden Segmente sofort wieder umschlagen müssen, klingen sie geruhsam aus. Der Effekt dieser Vorausaktivierung und dieses Nachschleifens ist die Koartikulation. Dabei handelt es sich nicht lediglich um eine Aneinanderreihung der für die einzelnen Segmente nötigen Artikulationsbewegungen mit Angleichungen an den Segmentgrenzen, sondern um die Übersetzung der diskreten Information, die zunächst aus dem Lexikon kommt und auch noch Output der phonologischen Komponente ist, in kontinuierliche Information, wie sie die Muskeln benötigen. Sind die erforderlichen Artikulationsbewegungen berechnet, so werden Nervenimpulse an die betreffenden Muskeln abgegeben, und diese führen die Artikulationsbewegungen aus. Damit ist die zweite Phase, die der Ausführung, abgeschlossen.

Kontrolle

Die dritte Phase, die Kontrolle, hat in diesem Erzeugungsprozeß mehrere Ansatzpunkte. Auf jeder Stufe des Prozesses, sowohl in der Planung als auch in der Ausführung, können die Schritte überwacht und die Zwischenergebnisse daraufhin überprüft werden, ob sie der Intention entsprechen. So kann der Sprecher bemerken, daß das, was er zu sagen im Begriff ist, nicht seinen Intentionen entspricht oder daß er im Begriff ist, sich zu versprechen. Manchmal gelingt es ihm noch rechtzeitig, in dem Erzeugungsprozeß zurückzugehen und ihn in die richtige Bahn zu lenken; manchmal kann er auch den Versprecher nicht mehr verhindern. Die Kontrolle auf den verschiedenen Stufen erfordert jedenfalls einen Vergleich des jeweils erreichten Ergebnisses mit dem, was intentionsgemäß nötig (gewesen) wäre. Voraussetzung dafür könnte sein, daß jeweils zwei parallele Ableitungen in Gang gesetzt und ständig miteinander verglichen werden. Dies wäre ein sehr aufwendiges und daher nicht sehr plausibles Verfahren. Wir kommen sofort darauf zurück, wie es wirklich geschehen könnte.

Während die auf den Zwischenstufen der Erzeugung eingreifenden Kontrollmechanismen noch nicht durchschaut sind, ist die Wirkungsweise der Kontrolle nach Beendigung der Ausführungsphase leichter vorstellbar. Zunächst ist es denkbar, daß das Nervensystem aus den Artikulationsbewegungen eine propriozeptive Rückmeldung erhält. Diese Rückmeldung ist für andere Muskelbewegungen notwendig und stets gegenwärtig. So kann ich etwa die erforderlichen Muskelbewegungen ausführen, um meinen Arm zu strecken; und ohne hinzusehen erfahre ich, ob er gestreckt ist. Diese propriozeptive Rückmeldung ist auch für die Artikulationsbewegungen denkbar. Dann würde man, noch bevor man die eigene Rede hört, wissen, ob die ausgeführten Artikulationsbewegungen den Intentionen entsprechen oder ob man sich versprochen hat. Ob dies tatsächlich so funktioniert, ist jedoch bisher nicht geklärt.

Klar ist dagegen, daß man sich selbst sprechen hört und also, ganz ebenso wie der Hörer, aus dem Gehörten den Sinn rekonstruieren kann. Auf diese Weise kann der Kontrollmechanismus das Gesagte auf sprachliche Korrektheit und situative Angemessenheit überprüfen. Stellt er eine Inkongruenz fest, so muß er entscheiden, ob er den Fehler durchgehen lassen oder eine Berichtigung veranlassen will. In diese Entscheidung gehen eine Reihe von Faktoren ein. Der wichtigste ist wohl, ob der Versprecher die Verständigung stört. Daher werden rein phonologische Versprecher häufiger unberichtigt gelassen als grammatische oder lexikalische. Eine andere Frage ist, ob es in der gegebenen Situation angebracht ist, sich zu verbessern. Der Sprecher kann damit rechnen, daß der Hörer eine ganze Reihe von Versprechern überhört bzw. beim Verstehen automatisch korrigiert. Die explizite Korrektur durch den Sprecher würde da vielleicht nur ablenken oder auf den Fehler allererst aufmerksam machen.

Die Entscheidungen des Kontrollmechanismus gehören zwar einem höheren Reflexionsniveau als das Sprechen selbst an und haben insofern eine größere Chance, bewußt zu sein. Aber sie sind nicht notwendigerweise immer bewußt. Das Wirken des Kontrollmechanismus ist mindestens teilweise so stark automatisiert, daß der Sprecher nachher oft nicht weiß, daß er sich korrigiert hat. Und natürlich entgehen dem Sprecher seine Versehen sicher ebenso häufig wie dem Hörer; das heißt, er merkt oft nicht, daß er sich versprochen hat. Der Kontrollmechanismus ist also ebensowenig unfehlbar wie der Erzeugungsmechanismus.

Hat der Kontrollmechanismus entschieden, daß ein Fehler zu korrigieren ist, so läßt er abbrechen und erteilt Anweisung, in der erzeugten Kette ein Stück zurückzugehen und sie noch einmal zu erzeugen. Bei rein phonologischen Versprechern geht man mindestens bis an die erste Stammgrenze, meist bis an die erste Wortgrenze vor der Fehlerstelle zurück, also z.B.

Bei lexikalischen Fehlern wird dagegen normalerweise bis an die Grenze der Konstituente, deren Nukleus betroffen war, zurückgegangen, also z.B.

Die Redeerzeugung wird nicht nur auf jeder einzelnen Stufe überwacht und korrigiert, sondern das jeweils in einer fortgeschrittenen Phase der Erzeugung erarbeitete Zwischenergebnis wird auch stets kontrolliert auf seine Adäquatheit unter Gesichtspunkten, die frühere Phasen der Erzeugung steuern. Das heißt, es gibt eine Rückkoppelung zwischen den verschiedenen Phasen. Evidenz dafür liegt vor, wenn Fehler, die in fortgeschrittenen Phasen des Erzeugungsprozesses passieren, angepaßt werden unter Einfluß von Phasen, die eigentlich schon durchschritten sind. Ein solcher Versprecher ist z.B. Ehrenfrau statt Ehefrau. Durch eine Antizipation auf der phonologischen Ebene dringt zunächst das r in den ersten Bestandteil. Dann wird durch Vergleich mit den Wortbildungsregeln, also durch Rückkoppelung mit einer zurückliegenden Stufe, festgestellt, daß ein Kompositum mit Ehre im ersten Glied ein Kompositionsfugen-n enthalten muß; und so kommt Ehrenfrau zustande.

Insgesamt kommen durch rein phonologische Versprecher viel häufiger tatsächliche Wörter zustande, als dies bei einer Zufallsverteilung der Fall sein müßte. Dies läßt den Schluß zu, daß die im Pufferspeicher zur Artikulation bereitgestellte Sequenz zuvor noch einmal unter semantischen Gesichtspunkten überprüft wird (s. Motley 1980). Dasselbe findet auch bei Morphemtranspositionen statt. Z.B. sagte jemand Verhängnisverhütung statt Empfängsnisverhütung. Auch dies ist zunächst eine Antizipation des Präfixes ver-. Wäre es jedoch nur das, müßte der Versprecher Verfängnisverhütung lauten. Der Ersatz des f durch das h ist nur als semantisch bedingt zu erklären.¹ Noch weiter in den Erzeugungsprozeß zurück greift die folgende Korrektur: Der Sprecher wollte zunächst sagen

Das letzte Beispiel wirft gleichzeitig ein Licht darauf, wie die Kontrolle funktioniert. Es handelt sich weniger um einen Monitor, der als separate Komponente des Mechanismus die Erzeugung auf allen Stufen überwacht und von außen eingreift, als vielmehr darum, daß der Sprecher sich während der gesamten Planung und Ausführung in die Rolle des Hörers versetzt und das jeweils Erzeugte unter den für ihn wichtigen Gesichtspunkten anpaßt. Die Stufenfolge, in der der Redeerzeugungsprozeß hier dargestellt wurde, hat also vor allem logisch-expositorischen Charakter. Tatsächlich ist es nicht ein unilinear gerichteter Prozeß, sondern eine ständige wechselseitige Aktivierung und Kontrolle von Einheiten auf verschiedenen Ebenen (vgl. Laver 1969, 1980; Dell & Reich 1980).

Redeverstehen

Redeverstehen und Sprachtätigkeit

Am Anfang des Kapitels waren wir von der landläufigen Annahme ausgegangen, daß das Redeverstehen ein zur Redeerzeugung konverser Prozeß ist, in dem dieselben Stufen in umgekehrter Reihenfolge durchlaufen werden. Nun haben wir schon gesehen, daß bei der Redeerzeugung nicht einfach eine Stufenfolge in einer Richtung durchlaufen wird. Mithin werden wir beim Redeverstehen auch nicht mehr eine klare Konverse zur Erzeugung erwarten.

Ich hatte schon in Kap. 2.6 darauf hingewiesen, daß die Gefahr besteht, Sprachtätigkeit mit Redeerzeugung gleichzusetzen bzw. sie darauf zu reduzieren. Auch in der Grammatiktheorie herrscht seit dem Aufkommen der Generativen Grammatik ein starkes Übergewicht an Erzeugungsgrammatiken zuungunsten von Erkennungsgrammatiken, was man teilweise explizit durch den Primat der Redeerzeugung vor dem Redeverstehen begründet (z.B. Chafe 1970, ch. 7). Die landläufige Meinung ist, daß nur das Sprechen aktiv und kreativ ist, während das Verstehen passiv und reproduktiv ist. Deshalb ist es wichtig zu betonen, daß Redeverstehen ebenso wie Redeerzeugung eine zielorientierte Tätigkeit ist. Das Ziel ist, den Sprecher zu verstehen, d.h. die von ihm geschaffenen Bedeutungen zu rekonstruieren. Dies ist keineswegs ein mechanischer Vorgang, dessen ‘Output’ (eine semantische Repräsentation) durch den ‘Input’ (das akustische Signal) vollständig determiniert wäre. Ebenso wie das Sprachsystem nicht die sprachliche Umsetzung der Idee des Sprechers determiniert, determiniert es auch nicht die Rekonstruktion des Hörers. Der Sprecher hatte das Netz seiner Assoziationen kappen und seine Gedanken dem sprachlichen System anbequemen müssen. Der Hörer muß entsprechend alle Arten von außersprachlicher Information einsetzen, um bei seiner Rekonstruktion Anschluß an jenes Netz von Assoziationen zu finden. Zu der ihm übermittelten akustischen Nachricht muß er also von sich aus etwas dazutun, muß selbst konstruieren. Seine Verstehenshandlung ist, ebenso wie die Sprechhandlung, aus drei Phasen aufgebaut: Planung, Ausführung, Kontrolle. Allerdings hat die Verstehenstätigkeit nicht, wie die Sprechtätigkeit, einen äußeren Aspekt, so daß auch die Ausführung der Handlung innerlich bleibt.

Planung

Würde der Hörer lediglich passiv abwarten, daß irgendwelche akustischen Eindrücke sein Ohr treffen, würde er wohl selten etwas verstehen. Bestätigung für diese Behauptung findet man in der Tatsache, daß Verhören, Mißverstehen oder Nichtverstehen bei weitem am häufigsten vorkommt, wenn der Sprecher aus heiterem Himmel etwas sagt, so daß der Hörer keine Chance hatte, sich vorzubereiten. Eine solche Situation kommt z.B. zustande, wenn man auf der Straße von einem Fremden nach dem Weg gefragt wird.

Der Hörer berücksichtigt bei seiner Planung alle Arten von Information, die ihm zur Verfügung stehen. Da ist zunächst die Sprechsituation, also die Identität des Sprechers, seine soziale Beziehung zum Hörer und die Situation, förmlich oder entspannt, in der die Unterredung stattfindet, einschließlich der nichtsprachlichen Aktivität, in die die beiden gerade involviert sind. Dann ist da der sprachliche Kontext, also alles zuvor Gesagte einschließlich allem, was daraus folgt. Der Hörer stellt sich darauf ein, daß der Sprecher auf diesen sprachlichen oder außersprachlichen Kontext in irgendeiner Weise Bezug nehmen wird. Ferner nimmt der Hörer an, daß der Sprecher sich an gewisse Konventionen halten wird, die die Verständigung garantieren oder mindestens erleichtern. Dies betrifft die sogenannten Griceschen Maximen, die wir in Kap. 4.4 aufgreifen.

Aufgrund all dieses Vorwissens und der Vorannahmen berechnet der Hörer die Wahrscheinlichkeit dessen, was als nächstes wohl gesagt werden wird. Er antizipiert also in größerem oder geringerem Maße die Äußerung des Sprechers. Da das Ziel der Sprachtätigkeit die Verständigung, die Erzeugung gemeinsamer Ideen ist, deren sprachliche Übertragung normalerweise nicht Selbstzweck, sondern bloß Vehikel ist, kümmert sich der Hörer weniger darum, die sprachliche Strukturierung dessen, was der Sprecher sagen wird, zu antizipieren, als vielmehr darum, seine Idee und Intention (genauer: den Gedanken und die illokutive Kraft i.S.v. Kap. 4.2.1.1) vorauszuahnen. Wenn der Hörer z.B. vernimmt

Freilich betreibt der Hörer auch eine strukturelle Vorausplanung, denn die zu erwartende strukturelle Information wird ja für seine Verstehensaufgabe ebenfalls wichtig sein. Einfache Tests zeigen, daß Hörer abgebrochene Sätze fortsetzen können und daß sie das desto besser den Intentionen des Sprechers gemäß tun können, je weiter der Text bzw. der Satz fortgeschritten war. Ebenso wie der Sprecher sich die sprachliche Strukturierung der folgenden Teile seiner Idee dadurch erleichtert, daß er sich Wegmarken setzt, also sich nach Äußerung von entweder darauf festlegt, mit oder fortzufahren, und ähnlich nach zwar mit aber, ebenso verwendet auch der Hörer diese Information, um das zu Erwartende vorzustrukturieren. Er entwickelt also, ganz wie der Sprecher, einen Rahmen für das folgende, der mit inhaltlicher und syntaktischer Teilinformaton besetzt ist, und speichert diesen vorläufig im Kurzzeitgedächtnis.

Das Redeverstehen setzt also nicht, wie man es sich oft vorstellt, am akustischen Signal an; dies ist lediglich die unterste Stufe der Ausführungsphase. Vielmehr beginnt der Hörer mit der Planung und geht dabei von denselben Größen aus, von denen auch der Sprecher ausgeht, denn diese teilt er ja schon immer mit ihm.

Ausführung

Dekodierung

Im Verstehen einer gegebenen Äußerung bzw., genauer, eines jeden Teils einer Äußerung endet die Planungsphase in dem Augenblick, wo dieser ertönt, und es beginnt die Ausführungsphase. Bei unmittelbarer mündlicher Kommunikation hat der Hörer zusätzlich zu der akustischen auch visuelle Information zur Verfügung. Dazu gehören zunächst die Lippenbewegungen des Sprechers, im weiteren aber auch parasprachliche Information wie Mimik, Gestik und Proxemik. Diese werden in der Ausführungsphase ebenfalls ausgewertet, ohne daß ich im folgenden weiter darauf eingehe.

Das Ziel der Ausführungsphase ist es, aus dem Gehörten Sinn zu machen. Dies geschieht dadurch, daß es in den entworfenen Rahmen eingeordnet und mit den Vorannahmen verglichen wird. Wir beschreiben diese Phase als eine Stufenfolge, die zu der für die Redeerzeugung beschriebenen (Kap. 2.2) konvers ist.

Was der Hörer empfängt, ist ein kontinuierliches akustisches Signal. Seine erste Aufgabe ist, die kontinuierliche physikalische Struktur in eine aus diskreten sprachlichen Einheiten zusammengesetzte Struktur zu transformieren (s. Erläuterung dieser Begriffe). Dies ist nicht ein einfacher Abbildungsvorgang, in dem das Signal eine einzige richtige phonologische Zerlegung vorgäbe. Denn die physikalischen Eigenschaften des Signals variieren nach Sprechern, deren psychischer und körperlicher Verfassung, Sprechtempo und anderen außersprachlichen Einflüssen so stark, daß bisher Spracherkennungsautomaten nur mit großen Einschränkungen das leisten, wozu Menschen im allgemeinen leicht imstande sind, nämlich die Variation auf sprachliche Invarianten zu beziehen. Bereits die Überführung der phonetischen in phonologische Information ist also ein konstruktiver Prozeß.

Die Tätigkeit des Hörers auf dieser Stufe kann beschrieben werden als Segmentierung des kontinuierlichen Signals und Klassifizierung der gewonnenen Einheiten. Durch die Segmentierung macht er die vom Sprecher vorgenommene Koartikulation sozusagen rückgängig. Z.B. ist ein Okklusiv, rein akustisch betrachtet, Bestandteil des folgenden (und teilweise des vorangehenden) Vokals. Der Hörer gewinnt hieraus jedoch eine Sequenz aus Konsonant plus Vokal. Auch bei der Klassifikation werden kontinuierliche Unterschiede auf kategoriale zurückgeführt. Ein Beispiel ist die Unterscheidung von stimmhaften versus stimmlosen Verschlußlauten im Englischen. [d] und [t] unterscheiden sich rein artikulatorisch dadurch, daß die Stimme bei [t] später einsetzt. In beiden Konsonanten gibt es einen Stimmeinsatzverzug (voice onset delay) nach Lösung des Verschlusses; aber wenn er kleiner als 25 ms ist, wird ein [d] gehört, und wenn er größer als 25 ms ist, wird [t] gehört. Englischsprecher erklären einen Dental mit 10 ms Stimmeinsatzverzug konsistent für ein [d] und einen Dental mit 40 ms Stimmeinsatzverzug konsistent für ein [t], wo lediglich 30 ms Unterschied besteht. Dagegen erklären sie Dentale mit 40 ms und 100 ms Stimmeinsatzverzug beide für [t], obwohl der Unterschied 60 ms beträgt, und können nicht einmal zwischen den beiden Lauten diskriminieren. Dies ist ein deutliches Beispiel dafür, daß das System die Wahrnehmung determiniert (s. Cairns & Cairns 1976). Der Hörer versteht das Signal dadurch, daß er es auf seine sprachlichen Kategorien bezieht. Er analysiert das Signal und synthetisiert dabei gleichzeitig eine phonologische Repräsentation.

Nach den phonologischen Regeln der Sprache bezieht der Hörer Allophone auf ihre Phoneme, rechnet also z.B. damit, daß ein stimmloser Verschlußlaut am Ende einer deutschen Silbe auch ein stimmhaftes Phonem repräsentieren kann. Am Schluß dieser Operationen der Segmentierung und Klassifizierung steht eine phonologische Repräsentation, die unter anderem distinktive Segmente und Silben enthält. Ferner verwendet der Hörer phonologische Information, um die Wortgrenzen festzustellen. Hier ist in erster Linie der Wortakzent zu nennen. Wenn er positionell an eine bestimmte Silbe, wie etwa im Ungarischen an die erste Wortsilbe, gebunden ist, kann der Hörer auf die Position der Wortgrenze am Rande einer bestimmten Silbe schließen. Es gibt auch segmentale Grenzsignale. Z.B. kann man, wenn man in einem deutschen Wort einen glottalen Verschlußlaut hört, schließen, daß die Wortgrenze (oder allenfalls eine Stammgrenze) unmittelbar vorangeht; und wenn man einen stimmhaften Verschlußlaut oder einen kurzen Vokal außer [ə] hört, kann man schließen, daß die Wortgrenze nicht unmittelbar folgt. Daneben werden Wortgrenzen natürlich anhand von Anhaltspunkten gefunden, die sich auf höheren Verarbeitungsstufen ergeben.

Hat der Hörer die phonologische Struktur der Kette einschließlich der Wortgrenzen rekonstruiert, so hat er die Significantia von Wörtern gewonnen, zu denen er nun durch Suche im Lexikon die Significata feststellen muß. In einigen Fällen besteht ein eindeutiges oder mehr-eindeutiges Abbildungsverhältnis zwischen Significantia und Significata, so daß das vom Sprecher intendierte Significatum im unmittelbaren Zugriff identifiziert werden kann. Häufig liegt aber auch Polysemie oder Homonymie vor, so daß der Hörer den Kontext berücksichtigen muß, um das gemeinte Significatum zu identifizieren. Reicht der Kontext nicht hin, sind Mißverständnisse möglich. So verstand ich einmal

Aus den Zeichen von Wortgröße werden nun komplexere Zeichen konstruiert, also in erster Linie Syntagmen, wie z.B. Nominalsyntagmen oder Adverbialien. Hierzu kann teilweise noch phonologische Information herangezogen werden. So gibt es pro Konstituente im einfachsten Falle nur einen Akzent. Und bei geübten Sprechern kann der Hörer darauf vertrauen, daß die Pausen im wesentlichen an den Grenzen größerer syntaktischer Konstituenten auftreten werden; bei ungeübten Sprechern allerdings signalisieren sie, wie schon gesagt (Kap. 4.2.1.3), bloß Wortfindungsschwierigkeiten. Die wichtigste Information zur syntaktischen Gliederung des Gehörten ist in jedem Falle grammatischer und semantischer Art. So wird der Hörer eine Konstituentenstrukturgrenze vor einer Präposition oder einem Personalpronomen vermuten, und Nebensatzgrenzen vor einer Konjunktion und nach dem finiten Verb im Deutschen. Semantische Information ist nötig, um in dem Satz

Da die Verarbeitung grammatischer Struktur hochgradig automatisiert ist, findet sie in einer relativ frühen Phase des Verstehens statt. Experimente haben nachgewiesen, daß bei der Verarbeitung von Sätzen grammatische Anomalien nach 200 Millisekunden, semantische Anomalien jedoch erst nach 400 Millisekunden erkannt werden.

Die erwähnten Präpositionen und Konjunktionen sind Beispiele dafür, daß das Erkennen gewisser grammatischer Formative im Hörer das Operieren einer Interpretationsstrategie auslösen kann (vgl. Bever 1970). Z.B. wird jemand, der ein Relativpronomen hört, einen Nebensatz erwarten. Diesen wird er als Attribut auf das nächste zurückliegende Nominal beziehen, das in Genus und Numerus zum Relativpronomen paßt. Ferner wird er verstehen, daß das Bezugsnomen in dem Nebensatz eine Rolle spielt, die durch den Kasus des Relativpronomens ausgedrückt ist. Er wird das Relativpronomen zwischenspeichern und das finite Verb dieses Nebensatzes erwarten; denn erst wenn er das vernommen hat, kann er die Rolle des Relativpronomens und damit des Bezugsnomens im Nebensatz endgültig verstehen, also die Interpretation des Relativsatzes und dann auch die eingeleitete Attribution abschließen (vgl. Wanner & Maratsos 1978).

Solche Strategien können den Hörer auch fehlleiten. Bekannt ist das Beispiel (des in der Literatur als “Holzwegsatz” bekannten Typs)

The horse raced past the barn fell.
"Das Pferd, das man am Stall vorbeirennen ließ, fiel."

Solange man das letzte Wort dieses Satzes nicht gehört hat, legen sich zwei Fehlinterpretationen nahe:

1) "The horse [raced past the barn]."
2) "[The horse raced] passed the barn."

Die Bedingung der Möglichkeit dieser zwei Interpretationen ist natürlich die Homophonie von [pæ:st]. Interpretation Nr. 1) beruht auf der einfachen Verständnisstrategie, daß eine auf das Subjektsnominalsyntagma folgende Verbform, die als zugehöriges Prädikat passen würde, bis zum Beweis des Gegenteils als Prädikat gilt. Diese Interpretation verfestigt sich in dem Beispielsatz noch, wenn man das Adverbiale hört. Die Strategie Nr. 2) setzt an der unmittelbaren Aufeinanderfolge zweier Verbformen an, postuliert (unter bestimmten Bedingungen), daß sie nicht beide finit sein können, interpretiert folglich die erste als ein Partizip und schlägt es als Attribut zum vorangehenden Nominal. Erst wenn das finite Verb am Schluß verstanden wird, ist eine Reinterpretation des ganzen Satzes fällig. Von Interpretation 1) ist bloß die Wahl der Bedeutung von past und die darauf basierende Interpretation des so eingeleiteten Syntagmas als Adverbial korrekt, während von Interpretation 2) der attributive Charakter von raced übernommen werden kann. Diese Irreführung der Interpretation durch zu simple Verstehensstrategien erklärt die Verständnisschwierigkeiten, die man in der Tat mit diesem Satz hat.

Der Hörer konstruiert also grammatische und somit semantische Relationen zwischen den Wörtern und gelangt so zu komplexeren bedeutungsvollen Einheiten. Das Schema der Funktion-Argument-Relation nimmt in diesem Interpretationsgang einen bedeutenden Platz ein. So operiert in dem Syntagma auf diese Weise zunächst der Determinator als Funktion über dem Substantiv als Argument. Mit dieser Operation ist die Interpretation dieses Syntagmas bis auf weiteres abgeschlossen. Nunmehr operiert die Präposition als Funktion über dem Nominalsyntagma als Argument. Als Ergebnis dieser Operation erhalten wir ein Präpositionalsyntagma, das nun seinerseits als Adverbiale wiederum ein Verb als Argument nehmen kann, und so immer fort. Der Hörer kann so schrittweise immer komplexere Bedeutungsstrukturen aufbauen und schließlich zur Interpretation ganzer Sätze gelangen.

In einigen Richtungen der Semantik und Psycholinguistik werden solche Funktion-Argument-Kombinationen Propositionen genannt. Man müßte den Begriff der Proposition dann so deuten, daß er den Begriff der Prädikation nicht impliziert, denn offensichtlich findet in zahlreichen Funktion-Argument-Beziehungen, etwa denen des letzten Beispiels, keine Prädikation statt (mehr hierzu in Kap. 7.7.3). Wenn man dies akzeptiert, kann man sagen, daß die semantische Interpretation eines Satzes ein System von verschachtelten Propositionen ergibt. Einige von diesen nimmt der Hörer besonders wichtig, andere vernachlässigt er. Und wiederum faßt er einige als gegeben auf (Kap. 4.2.1.2) und sucht sie also in seinem Gedächtnis, während er andere dem schon Bekannten als neue Information hinzufügt. Dies wird gesteuert durch die funktionelle Satzperspektive, insbesondere die Emphase und die Informationsstruktur.

Pragmatische Interpretation

Durch dieses Interpretationsverfahren rekonstruiert der Hörer die Ausgangsidee des Sprechers. Seine Rekonstruktion ist freilich nur vorläufig, denn sie kann sich aufgrund des Vergleichs mit den Erwartungen als revisionsbedürftig erweisen. Wir besprechen diesen Aspekt in Kap. 4.3.4. Die höchste Stufe in diesem Rekonstruktionsverfahren besteht darin, daß der Hörer mithilfe von Inferenzen die pragmatischen Konsequenzen zieht. Dies wird durch die der Äußerung innewohnende illokutive Kraft gesteuert. Z.B. ist die höchste Stufe des Verstehens einer Frage erreicht, wenn der Hörer fühlt, daß der Sprecher von ihm eine Antwort einer bestimmten Art erwartet. Die Bereitschaft selber, diese Antwort zu erteilen, ist allerdings nicht mehr Teil des Verstehens, sondern resultiert aus einem unabhängigen Willensakt des Hörers.

In zahlreichen Fällen ist die illokutive Kraft nicht restlos in der sprachlichen Struktur kodiert. Das richtige Verständnis der Äußerung

Der Hörer behält – falls er überhaupt “richtig hingehört” hat – den wahrgenommenen Wortlaut so lange im Kurzzeitgedächtnis, bis er mit der Interpretation ein hinreichendes Resultat hat, d.h. bis er die für seine Zwecke nötigen Implikationen und Inferenzen erreicht hat und dabei auf keine Widersprüche gestoßen ist. Da der Hörer mit dem Interpretieren nicht wartet, bis er den ganzen Satz vernommen hat, sondern den Sprecher schrittweise begleitet, ist er meistens mit der Interpretation der Äußerung fertig, unmittelbar nachdem der Sprecher damit fertig ist. Alsbald vergißt der Hörer den Wortlaut und macht somit den Speicher des Kurzzeitgedächtnisses frei. Was nach Äußerung eines Satzes im Gedächtnis verbleibt, ist bestenfalls seine Bedeutung, i.a. jedoch nicht sein Wortlaut.

Kontrolle

Wir kommen später auf diese Stufenfolge zurück und besprechen zunächst die Kontrollphase. Der Hörer hatte ja in der Planungsphase ein vorläufiges Gerüst der zu erwartenden Äußerung entworfen, das je nach Vorinformation grammatische, semantische und pragmatische Merkmale enthielt. Die Kontrolle besteht nun darin, daß der Hörer das vorentworfene Schema vergleicht mit dem Resultat der Ausführungsphase. Dies ist natürlich nicht ein pro Äußerung einmal stattfindender Akt, sondern ein stetes Kontrollieren der Ausführung der Interpretation anhand der Vorinformation.

Ein Resultat der Planungsphase war z.B., daß der Hörer sich eine Meinung darüber bildet, mit welcher Wahrscheinlichkeit er etwas hören wird. Wenn nun das Resultat der Interpretation daran gemessen ganz unwahrscheinlich ist, wird der Hörer in der Stufenfolge der Interpretation so weit zurückgehen, bis sich der Widerspruch löst. Solange der auditive Eindruck des Gehörten noch im Kurzzeitgedächtnis ist, kann er den gesamten Prozeß noch einmal durchlaufen. Ich komme auf das Mißverständnis Werden die anderen denn viel Lehrer? zurück. Es war dadurch ermöglicht worden, daß es im vorangegangenen Kontext einen passenden Referenten für die anderen unter dieser Interpretation gab (es war von Studenten und Hörsälen die Rede gewesen). Im übrigen aber kam diese Frage im Kontext der restlichen Unterhaltung wie aus heiterem Himmel, war also ausgesprochen unwahrscheinlich. Ich ging deshalb noch einmal auf das Gehörte zurück, stellte fest, daß /le:rer/ homonym war, fand für die Bedeutung "leerer" ebenfalls einen passenden Referenten und hatte mit dieser alternativen Interpretation Erfolg.

Ebenso wie der Sprecher seine Äußerung auf sprachliche Korrektheit überprüft, benutzt auch der Hörer die rein sprachlichen Regeln, um sich seines richtigen Verständnisses zu vergewissern. Knobloch behauptet sogar (1984: 217):

Ebenso wie für den Sprecher ist auch für den Hörer die Kontrolle eine ständige Rückkoppelung, in diesem Falle eine Rückkoppelung der Interpretation an die Planung. Es ist vielleicht nicht einmal so klar, welches hier die konstruktive und welches die kontrollierende Phase ist, d.h. ob die Planung die Interpretation kontrolliert oder ob die Ausführung der Interpretation aufgrund des tatsächlich Gehörten eher dazu dient, die Planung zu kontrollieren. Sicher ist, daß die Planung das Verständnis sehr stark leitet. Es schreitet in Wahrheit nicht schrittweise von der Phonetik zur Semantik voran, sondern läßt unter Umständen alle unteren Stufen aus. Das heißt, gelegentlich kann die Vorinformation völlig ausreichen, um das nächste Wort zu verstehen, ohne daß man es akustisch wahrnimmt. Verstehen geht auch sicher nicht so vor sich, daß der Hörer zunächst eine dem Linguisten genügende "wörtliche Bedeutung" des Gehörten konstruiert, um sich dann in einem zweiten Schritt zu fragen, was der Sprecher damit wohl wollen könnte. Vielmehr ist Verstehen eine anpassungsfähige Tätigkeit, die von Signalinformationen, aber auch von Umgebungsfaktoren oder der Intention des Sprechers ausgehen kann (Knobloch 1984: 214f, 102f).

Wie wenig der Hörer von Signalinformation abhängt und wie weit er sie durch eigene Konstruktion ersetzt, zeigt z.B. ein Experiment, bei dem in einem zu hörenden Text einzelne Sprachlaute durch ebenso lange Stücke von bloßem Rauschen ersetzt worden waren. Die Hörer verstanden nicht nur die Wörter ohne Schwierigkeiten, sie schworen sogar, daß das Wort vollständig, also jeder seiner Laute vorhanden war.² In dieselbe Richtung weist die Tatsache, daß die Hörer Versprecher des Sprechers mindestens ebenso häufig überhören wie er selbst und sie stillschweigend in ihrer Interpretation korrigieren. Sie überhören auch die Wortfindungspausen und deren Füllsel wie äh, so daß man sich fragen kann, ob sie wirklich Pausen als Grenzsignale syntaktischer Konstituenten verwenden (Cairns & Cairns 1976:).

Nutzung der Äußerung

Am Ende der bis hierher geschilderten Verstehensarbeit hat der Hörer die Idee des Sprechers rekonstruiert und im Kurzzeitgedächtnis gespeichert. Was nun weiter mit ihr geschieht, hängt sehr stark vom Interesse des Hörers ab und davon, welche Aufgabe er vor sich sieht. Abermals ist es wichtig, Verstehen als eine zielgerichtete Tätigkeit zu begreifen. Wenn es dem Hörer ausreicht, in einer Konversation eine der gehörten Äußerung adäquate Antwort zu geben, also z.B. auf Das regnet heute wieder! zu antworten Ja, so schlimm war's lange nicht, dann wird er sein Rekonstrukt der Sprecheridee alsbald wieder vergessen. Studiert er dagegen für eine Prüfung und muß daher dem Gehörten oder Gelesenen einen Platz in einem Wissensgebäude zuweisen, über das er bei Bedarf souverän verfügen kann, so wird er das Aufgenommene weiterverarbeiten. Das Wesen dieser weiteren Verarbeitung ist das Knüpfen weiterer Assoziationen und das Ziehen weiterer Schlüsse oder Inferenzen. Witze z.B. erfordern häufig solche Inferenzen; man verbringt nicht selten geraume Zeit mit Verstehensarbeit, bis man sie "kapiert" hat, d.h. zu der Interpretation gelangt, bei der sich eine Pointe, ein Sinn ergibt. Nehmen wir z.B. das Bonmot

Man macht auch gelegentlich die Erfahrung, daß einem erst Tage später klar wird, was jemand mit einem Ausspruch gemeint hat. Solche Tatsachen zeigen, daß es eine statische semantische Repräsentation für Sätze im Sinne von endgültigen Resultaten des Verstehensprozesses nicht gibt. Verstehen ist eine Tätigkeit mit offenem Ende. Der Hörer wird versuchen, zu demselben Netz von Assoziationen zu gelangen, mit dem der Sprecher begann und das er zum Zwecke der Versprachlichung rundherum kappen mußte. Nichts garantiert, daß der Hörer dieses Ziel erreicht. Wenn er es aber erreicht, hat er weit mehr geleistet als eine bloße semantische Interpretation im systemlinguistischen Sinne.

Gemeinsamkeiten zwischen Redeerzeugung und Redeverstehen

Als wir in Kap. 2.6 den Begriff der Sprachtätigkeit klärten, hatte ich behauptet, eine Theorie der Sprachtätigkeit sei keine Performanztheorie, sei also nicht auf die Redeerzeugung beschränkt; vielmehr sei der Begriff der Sprachtätigkeit zwischen der Tätigkeit des Sprechers und der des Hörers neutral. Wenn nun Redeerzeugung und Redeverstehen reinlich konvers zueinander wären, wäre dieser Anspruch einfach einzulösen. Statt dessen haben wir nun gefunden, daß die beiden Aktivitäten in vielen Aspekten gleichgerichtet sind und parallel laufen sowie andere systematische Gemeinsamkeiten haben. Diese fassen wir im folgenden zusammen.

1. Sowohl die Tätigkeit des Sprechers als auch die des Hörers ist darauf gerichtet, Sinn zu machen, ist also auf das Ziel eines gegenseitigen Verständnisses gerichtet. Das Übertragungsmedium ist für beide nur Mittel, nicht Zweck. Auch die grammatischen und lexikalischen Strukturen sind für beide nicht Zweck der Tätigkeit, sondern vielmehr die Form, in die sie sich notwendig fügt, um ihr Ziel zu erreichen.³ Deshalb vergessen Sprecher und Hörer sowohl den auditiven Eindruck als auch die sprachliche Strukturierung ihrer Ideen sehr bald nach dem Austausch. Freilich gibt es Sonderfälle von Sprechsituationen, wo einem der Wortlaut des Gesagten unvergeßlich bleibt. Im allgemeinen (und auch das nur in günstigen Fällen) geht aber ins Langzeitgedächtnis lediglich die Bedeutung der übermittelten Nachricht über. Das Ausdrucksmittel funktioniert wie ein Abschleppseil zwischen Sprecher und Hörer, das man nicht mehr braucht, wenn man ans Ziel gelangt ist. Insoweit ist die Beziehung zwischen Bedeutung und Ausdruck für Sprecher und Hörer parallel.

2. Der Sprecher ist in dem Austausch nur insofern dominant, als er an der Reihe ist zu reden und somit die Führung in dem gemeinsamen Schaffen von Bedeutungen übernimmt. Jedoch ist der Hörer ebenso konstruktiv tätig wie der Sprecher, da er aus dem Gehörten Sinn machen muß. Zwar hat er zur Schaffung der Bedeutungen die Anleitung des Sprechers in Gestalt der gehörten Nachricht. Dafür hat er die schwerere Aufgabe, Bedeutungen nicht überwiegend nach eigenem Belieben zu schaffen, sondern herauszubekommen, welche Bedeutungen der Sprecher schafft. Die Alltagserfahrung zeigt, wie schwierig das oft sein kann, wieviel eigene Konstruktionsarbeit es von dem Hörer verlangt.⁴

Der Hörer ist hierbei ebenso kreativ wie der Sprecher. Durch Assoziation und Inferenz kommt er auf Gedanken, die er vielleicht noch nie hatte und die auch nicht unbedingt mit denen übereinstimmen, von denen der Sprecher ausging. Auch in bezug auf die Sprache allein sind beide kreativ. Der Sprecher fügt sich zum Teil den Konventionen des Systems, formt aber innerhalb ihrer sprachliche Strukturen, die vielleicht noch nie geschaffen wurden. Er bildet z.B. einen Neologismus wie Nachfragezuwachsmangel, gebraucht zum ersten Male eine Metapher wie die Köpfe rauchen oder schafft neue grammatische Formative, wenn er im Gefolge der Regierungsumbildung im Sinne von nach der/durch die Regierungsumbildung sagt. Insofern dies alles nicht etablierten Schemata entspricht, erfordert es auch vom Hörer Kreativität, es als Teil seiner Sprache zu behandeln. Indem der Hörer solche Innovationen (Neuerungen) des Sprechers übernimmt und bei nächster Gelegenheit vielleicht selbst verwendet, verändern Sprecher und Hörer gemeinsam die Sprache.

3. Da Sprecher und Hörer das Ziel haben, gemeinsam Bedeutungen zu schaffen, beobachtet der Hörer die äußere Tätigkeit des Sprechers, um seine innere Tätigkeit nachvollziehen zu können. Die beiden schreiten so im Denken anhand des erwähnten Abschleppseils gemeinsam fort. Das impliziert, daß die beiden kooperativ sind; oder jedenfalls müssen sie das sein, wenn die Verständigung gelingen soll. Im Rahmen dieser Kooperativität halten die beiden sich an eine Reihe von Maximen, die allgemein effiziente Kommunikation ermöglichen und die Zulässigkeit gewisser spezifischer Inferenzen garantieren. Die vier folgenden gehen auf H.P. Grice (1975) zurück (Zitat).

Diese Maximen gelten in erster Linie für Äußerungen, die Information übermitteln, was natürlich längst nicht alle Äußerungen tun. Sie wären z.B. zu ergänzen durch Maximen der Höflichkeit, des Taktes usw. Ferner ist es völlig klar, daß viel Sprachtätigkeit sich nicht an die Maximen hält. Der Sprecher kann, aus Unfähigkeit oder Absicht, den Hörer überfahren, irreleiten, desavouieren usw.; und ebenso kann der Hörer den Sprecher versehentlich oder böswillig mißverstehen, ihm Lügenhaftigkeit unterstellen usw. Außerdem können einzelne kulturelle bzw. soziale Konventionen die Maximen außer Kraft setzen.⁵ Wenn ein Partner die Maximen verletzt und der andere bemerkt dies, so mißlingt entweder die Verständigung, oder der Partner wird aus der Verletzung besondere Schlüsse ziehen. Letzteres gilt vor allem, wenn die Verletzung einer Maxime stilistisch konventionalisiert ist. In Witzen z.B. macht man nur obskure Andeutungen; bei Untertreibungen sagt man weniger, als man könnte; bie Ironie sagt man das Gegenteil von dem, was man meint.

4. Sprechen und Verstehen verbinden zwar beide Ausdruck und Inhalt; aber sie tun das nicht in unilinearer und somit nicht in konverser Richtung. Zum einen basieren beide auf der gemeinsamen Sprechsituation, auf der Verfügung über die äußeren Umstände und der Sprachkenntnis. Zum anderen arbeiten Sprecher und Hörer je in beiden Richtungen. Einerseits läßt sich der Sprecher nicht ausschließlich von seiner Idee, seiner Redeabsicht leiten, sondern ebenso auch von den strukturellen Zwängen des soeben Gesagten, von den sprachlichen Möglichkeiten des Hörers, von seinen parasprachlichen Verstehenssignalen usw. Das heißt, der Sprecher kontrolliert die Redeerzeugung ständig dadurch, daß er sich gleichzeitig in die Rolle des Hörers versetzt.

In entsprechender Weise läßt sich andererseits der Hörer nicht ausschließlich von der Signalinformation leiten, sondern ebenso auch von dem, was er bezüglich der Redeabsicht des Sprechers antizipiert. Das heißt, der Hörer kontrolliert das Redeverstehen ständig dadurch, daß er sich gleichzeitig in die Rolle des Sprechers versetzt (vgl. Oller 1978). Jeder ist gleichzeitig Sprecher und Hörer; wie oft kommt es vor, daß zwei Gesprächspartner gleichzeitig dasselbe sagen wollen oder sogar sagen! Hierin liegt die tiefere Rechtfertigung eines einheitlichen Begriffs der Sprachtätigkeit.

5. Beim Schaffen von Sprachzeichen führen Sprecher und Hörer eine Anzahl konstruktiver Operationen aus, die zwei fundamentale Aspekte haben: Selektion und Kombination (Jakobson 1956). Jedes Sprachzeichen gehört gleichzeitig in ein Paradigma, aus dem es selektiert wird, und in ein Syntagma, zu dem es mit anderen Zeichen kombiniert wird. Es ist nicht der Fall, daß die Einheiten einer unteren Ebene ausschließlich selektiert und die Einheiten einer höheren Ebene ausschließlich aus den so selektierten Einheiten kombiniert werden. Da es mehr als zwei grammatische Ebenen gibt, wäre dies schon logisch nicht möglich. Ein gegebenes Syntagma wird zusammengesetzt aus kleineren Einheiten, aus einem Paradigma alternativer Syntagmen ausgewählt und mit weiteren Syntagmen zu einem komplexeren Syntagma kombiniert (Lehmann 1984, Kap. 6.3).

Diese beiden Aspekte sprachlicher Operationen sind für Sprecher und Hörer gleich. Nicht nur der Sprecher selektiert und kombiniert sprachliche Zeichen. Auch der Hörer kombiniert sie und versteht sie dadurch, daß er sie auf ihre Alternativen, auf ihr Paradigma bezieht. Daß Sprecher und Hörer wirklich so vorgehen, sieht man auch, wenn die Sprachtätigkeit einmal nicht funktioniert: Alle Fälle von Versprechen und Verhören sind entweder falsche Selektionen (Kap. 2.1.4) oder falsche Kombinationen (Kap. 2.1.5).

6. Sprechen und Verstehen finden beide in Realzeit statt. Hierin unterscheiden sie sich übrigens grundsätzlich von der Funktionsweise der allermeisten Modelle von Erzeugungs- oder Erkennungsgrammatiken.⁶ Es ist also nicht so, daß die Gesprächspartner jeweils einen ganzen Satz in einem Zuge "von der Tiefe zur Oberfläche" bzw. umgekehrt abarbeiten. Vielmehr geht die Verarbeitung schrittweise "von links nach rechts", d.h. in der Zeit, vor sich, so daß am Anfang einer Äußerung ihr Ende noch nicht feststeht.

Diese schrittweise Abarbeitung einer Kette ist serielle (oder inkrementelle) Verarbeitung. Freilich ist bei jedem Schritt nicht lediglich eine einzige Operation der Verknüpfung von Ausdruck und Inhalt fällig, sondern ein ganzer Komplex von Operationen, die zwischen Idee und akustischer Repräsentation hin und her gehen und intermediäre Ebenen einschalten. Bereits dies ist parallele Verarbeitung. Der Vorgang wird aber noch zusätzlich kompliziert dadurch, daß die Verarbeitung der folgenden Einheit schon beginnt, wenn die Verarbeitung der gegebenen Einheit noch nicht abgeschlossen ist. Während der Sprecher Abschnitt i artikuliert, muß er i-1 noch im Kurzzeitgedächtnis behalten und i+1 schon planen; und Entsprechendes gilt für den Hörer. Wir haben also parallele Verarbeitung eines gegebenen Abschnitts und außerdem überlappend-parallele Verarbeitung aufeinander folgender Abschnitte.

7. Ich habe verhältnismäßig wenig darüber gesagt, inwieweit die Sprachtätigkeit bewußt ist. Über dieses Problem werden in der Literatur höchst gegensätzliche Ansichten vertreten. So hat z.B. N. Chomsky stets behauptet, die Sprachkenntnis eines Muttersprachlers sei "implizit", also doch wohl unbewußt. E. Coseriu dagegen hat stets behauptet, die Sprachtätigkeit sei bewußt; und sogar der Sprachwandel, von dem schon de Saussure behauptet hatte, er vollziehe sich unmerklich, ist nach Coseriu der Kontrolle der Sprecher unterworfen.

Es scheint, daß Chomsky und Coseriu nicht über dieselben Dinge reden. Wenn Chomsky sagt, die Kompetenz sei implizit, so meint er offenbar, daß ein linguistisch nicht gebildeter Muttersprachler sie nicht ohne weiteres explizit machen könne, d.h. im wesentlichen die sprachlichen Regeln nicht angeben könne, denen er folgt. Das ist sicher richtig, muß aber nicht unbedingt bedeuten, daß diese Regeln unbewußt befolgt werden. Ich kann z.B. beim Gehen völlig bewußt einen Fuß vor den anderen setzen und dennoch die Mechanismen nicht kennen, die mir das Gehen erlauben.

Damit soll nicht gesagt sein, daß die Sprachtätigkeit vollkommen bewußt ist. Die folgenden zwei Voraussetzungen scheinen jedoch plausibel.

Für die Sprachtätigkeit besagt dies: Der Sprecher wählt das epistemische und kommunikative Ziel seines Sprechaktes bewußt. Das heißt, er entwirft bewußt eine Idee, also einen Gedanken mit einer illokutiven Kraft. Auch dem Hörer wird diese Idee als Ziel seiner Tätigkeit bewußt. Die Ausdrucksstrukturen und die akustische Vermittlung dagegen sind, wie schon zuvor gesagt, nicht Ziel der Sprachtätigkeit, sondern werden lediglich als Mittel zur Erreichung des Ziels eingesetzt. Dies geschieht weitgehend automatisch, nämlich in dem Maße, in dem das Ziel die einzusetzenden Mittel diktiert. Je mehr also die sprachlichen Mittel nicht selbständig Teile der Idee repräsentieren, sondern notwendige Form ihrer Versprachlichung sind, werden sie unbewußt verarbeitet. Dieses Verhältnis von Zielen und Mitteln folgt den allgemeinen Prinzipien einer teleonomischen Hierarchie.

Um ein Beispiel zu geben: Der Sprecher hat die Wahl, ob er Professor oder Prof sagen will; der Unterschied in den Konnotationen der beiden Ausdrücke ist Bestandteil seiner Idee oder kann es mindestens sein. Insoweit wird die Selektion des einen oder anderen Ausdrucks dem Sprecher und dem Hörer bewußt. Der Sprecher hat dagegen keine Wahl, ob er vor das Substantiv Professor einen maskulinen, femininen oder neutralen Artikel stellen will. Das Nachdenken darüber ist ihm erspart, die Wahl ist automatisiert und damit unbewußt. Entsprechend hat der Hörer keinen Anlaß, sein Bewußtsein mit der Erwägung zu belasten, was der Sprecher wohl mit dem maskulinen Artikel vor Professor hat wollen können.

Auch hier sind wieder Einschränkungen nötig. Die Autonomie der sprachlichen Mittel ist verschieden groß, die Wahl zwischen Alternativen ist nicht entweder frei oder determiniert, sondern mehr oder weniger frei. Wir müssen also präzisieren, daß sprachliche Mittel desto weniger bewußt eingesetzt werden, je mehr sie den Regeln des Sprachsystems unterworfen sind. Zum andern kann das, was im allgemeinen automatisch funktioniert, unter bestimmten Bedingungen auch zu Bewußtsein dringen. Wenn der Sprecher z.B. in Nöte gerät, einen Satz den grammatischen Regeln entsprechend zu Ende zu bringen, und sich bemüht, einen Anakoluth zu vermeiden, wird die Suche nach einem grammatischen Mittel, das dies erlaubt, plötzlich zu einem Bewußtseinsakt. Ebenso wird ein Hörer, der bemerkt, daß er mißverstanden hat, noch einmal beginnen, die sprachliche Struktur des Gehörten bewußt zu untersuchen. Darüber hinaus gibt es ganze Texte, in denen die sprachliche Struktur einen Eigenwert hat, zum eigenständigen Ziel wird. Das sind poetische Texte. Man erinnere sich (Kap. 3.2.2.), daß es in R. Jakobsons Funktionenmodell eine poetische Funktion gibt, die den Bezug der Nachricht auf sich selbst betrifft.

Zweifellos sind verschiedene Sprecher verschieden virtuos in der Erzeugung poetischer Texte oder der Vermeidung von Anakoluthen. Es ist durchaus möglich, daß die Sprachkünstler die Strukturmittel besser ins Bewußtsein bringen können als andere Menschen. Es ist dies ein Bereich, der dringend psychologischer Untersuchungen bedarf (vgl. Knobloch 1984: ). Es ist zum Abschluß auch noch einmal darauf hinzuweisen, daß das Obige eine theoretische Systematisierung ist. Der konkrete Ablauf von Redeerzeugung und das Redeverstehen im Menschen ist möglicherweise dermaßen komplex und individuell verschieden, daß es niemals ein realistisches Modell dafür geben wird.

⁰¹ Eine aktuellere Behandlung des folgenden findet sich in dem Skript zur Semantik.

¹ Natürlich liegt die Hypothese nahe, daß durch Freudsche Fehlleistung einfach der Ausdruck Empfängnis durch den gleichzeitig gedachten Ausdruck Verhängnis ersetzt wurde. Das würde aber nicht die phonologische und morphologische Ähnlichkeit der beiden Ausdrücke erklären.

² Es ist eine Alltagserfahrung, daß die Leute manchmal hören, was sie hören wollen.

³ Significans und Significatum des Sprachzeichens sind zwar untrennbar miteinander verbunden. Das hier Gesagte scheint dem zu widersprechen. Aber was im Gedächtnis verbleibt, ist in Wahrheit nicht das (vom Significans entbundene) Significatum, sondern die Interpretation der Äußerung.

⁴ Sprechen ist einfacher als Verstehen, weil der Sprecher im voraus weiß, was gesagt werden wird. Vgl. Siewierska 1991:5.

⁵ Z.B. ist es in Brasilien üblich, Einladungen auszusprechen, die nicht als solche genommen werden sollen, sondern lediglich dem positiven Abschluß einer kommunikativen Interaktion dienen.

⁶ In der Psycholinguistik ist natürlich die dort “inkrementell” genannte Verarbeitung schon längst Gegenstand von Modellen, etwa in Levelt 1989. In Grammatikmodellen werden diese Erkenntnisse jedoch nur zögerlich umgesetzt; viele Linguisten rechnen diesen Aspekt zur Performanz, dem ein Kompetenzmodell nicht Rechnung zu tragen habe. Erste Versuche zu einer von links nach rechts laufenden Generation von Sätzen finden sich in Yngve 1960. Auch für Erkennungsgrammatiken gibt es einige neuere serielle bottom-up-Modelle. Von einer inkrementellen Abbildung syntaktischer auf semantische Strukturen und umgekehrt ist in der Funktionalen Grammatik (Amsterdam) und in der Rollen-und-Referenz-Grammatik (Van Valin) seit etwa 1999 die Rede.

Lehmann, Konrad 2017, Das schöpferische Gehirn. Auf der Suche nach der Kreativität – eine Fahndung in sieben Tagen. Berlin & Heidelberg: Springer.

Kleist, Heinrich von s.a., "Über die allmähliche Verfertigung der Gedanken beim Reden." Müller, Adam & Kleist, Heinrich von, A. Müller, "Vom Gespräch" (1812); H. v. Kleist, "Über die allmähliche Verfertigung der Gedanken beim Reden". Hamburg: E. Hanswedell; 24-32.

Meringer, Rudolf & Mayer, Carl 1978, Versprechen und Verlesen. Eine psychologisch-linguistische Studie Amsterdam & Philadelphia: J. Benjamins (Classics in Psycholinguistics, 2) (New edition, together with an introd. article and a select bibliography by Anne Culter and David Fay).

Einleitung

Direktionalität in der Sprachbeschreibung

Handlung

Redeerzeugung

Planung

Konstruktion einer Idee

Kommunikativer Dynamismus

Grammatische Strukturierung

Wortwahl

Linearisierung

Ausführung

Kontrolle

Redeverstehen

Redeverstehen und Sprachtätigkeit

Planung

Ausführung

Dekodierung

Pragmatische Interpretation

Kontrolle

Nutzung der Äußerung

Gemeinsamkeiten zwischen Redeerzeugung und Redeverstehen