Eine Erkennungsgrammatik funktioniert ungefähr wie folgt: Das Ziel ist, festzustellen, ob eine Kette von Symbolen ein Satz ist, und – falls die Semantik durch das Modell miterledigt wird – positivenfalls davon eine semantische Interpretation zu geben. Der Algorithmus kann dazu in groben Zügen wie folgt vorgehen:

  1. Er liest einen Satz (das ist eine Kette, die durch bestimmte Satzzeichen abgegrenzt ist).
  2. Er nimmt die Wortformen auf (das sind Ketten, die zwischen Leerzeichen oder bestimmten Satzzeichen stehen), aus denen der Satz besteht.
  3. Er lemmatisiert die gefundenen Wortformen.
  4. Anhand der gefundenen Lemmata sucht er die Lexeme in der lexikalischen Datenbank. Er entnimmt ihr die gesamte mit dem Lexem assoziierte Information (s. das Kapitel über die Struktur des Lexikoneintrags). Somit weiß er u.a., welcher Wortart das Lexem angehört und folglich, welche sekundären grammatischen Kategorien an Lexemen dieser Wortart kodiert werden und was ihr kombinatorisches Potential ist.
  5. Er analysiert die Wortformen nach den Regeln der Morphologie. Den an Wortformen kodierten grammatischen Kategorien kann er daraufhin ihre aktuellen Werte zuordnen.
  6. Er gruppiert Ausdrücke zu Syntagmen, indem er prüft, ob die syntaktischen Bedingungen, unter denen benachbarte Wortformen zu einem Syntagma zusammengefaßt werden können, erfüllt sind. Positivenfalls spezifiziert er die syntaktische Kategorie des resultierenden Syntagmas. Er tut dies rekursiv in dem Sinne, daß er auf die gebildeten Syntagmen dieselbe Gruppierungsoperation wieder anwendet so lange, bis er die gesamte Kette abgearbeitet hat und das resultierende Syntagma ein Satz ist.

Der Vorgang kann an folgendem Beispiel illustriert werden:

  1. Die Erkennungsgrammatik liest folgenden Satz: Die Ergebnisse der neuen Studentinnen sind besser.
  2. Unter den erkannten Wortformen sind die folgenden: der, neuen, Studentinnen; auf diese beschränken wir uns im folgenden.
  3. Die Lemmatisierung dieser Wortformen ergibt folgende Lemmata:
    • der: der
    • neuen: neu
    • Studentinnen: Studentin
  4. Dem Lexikon entnimmt der Algorithmus die folgende (für unser Beispiel relevante) Information für die drei Lexeme:
    • Für das Lexem der:
      • Significans: /d/ (+ Deklinationsendung)
      • Significatum (für den definiten Artikel): die durch das mit der gebildete Nominalsyntagma bezeichnete Menge von Referenten existiert im Redeuniversum
      • Wortart: Relativpronomen oder Demonstrativpronomen oder Artikel
      • Flexion: unregelmäßig (d.h. sämtliche Formen des Paradigmas wären hier aufzuzählen).
    • Für das Lexem neu:
      • Significans: /noj/
      • Significatum: was erst seit kurzem die durch das Bezugsnominal bezeichnete Existenzweise (Rolle usw.) hat
      • Wortart: attributiv, prädikativ und adverbial konstruierbares Adjektiv
      • Flexion: adjektivische Deklination (d.h. nach allen Deklinationsklassen flektierbar).
    • Für das Lexem Studentin:
      • Significans: / ʃtu'dɛntɪn/
      • Significatum: weiblicher Student
      • Wortart: Substantiv
      • Flexion:
        • Genus: femininum
        • Deklinationsklasse: schwach.
  5. Die morphologische Analyse der drei Formen basiert jeweils auf der soeben dem Lexikon entnommenen Information. Sie wird hier etwas abgekürzt:
    • Als Pronomen flektiert der (gleich welcher der drei obigen Wortarten es angehört) jedenfalls nach Genus, Numerus und Kasus. Die Form kann für diese Kategorien drei Wertekombinationen haben, nämlich die folgenden:
      • Genus: maskulinum, Numerus: Singular, Kasus: Nominativ
      • Genus: femininum, Numerus: Singular, Kasus: Dativ
      • Genus: [], Numerus: Plural, Kasus: Genitiv.
      Das leere Paar eckiger Klammern soll hier besagen “keine Information”. Für den Algorithmus bedeutet das, daß der Wert nicht festgesetzt ist, daß folglich jeder beliebige Wert eingesetzt werden kann.
    • Die Flexionskategorien von neuen qua Adjektiv sind ebenfalls Genus, Numerus und Kasus. Die Form kann für diese Kategorien eine ganze Reihe von Wertekombinationen haben. Wir beschränken uns hier auf zwei für das Beispiel relevante Wertekombinationen in der schwachen Deklination:
      • Genus: [], Numerus: Singular, Kasus: Genitiv
      • Genus: [], Numerus: Plural, Kasus: []
    • Studentinnen flektiert qua Substantiv nach Numerus und Kasus. Die Form wird sonach wie folgt bestimmt: Genus: femininum, Numerus: Plural, Kasus: [].
  6. Im letzten Schritt kombiniert der Algorithmus die drei Wortformen der Kette [ der ]Det [ neuen ]Adj [ Studentinnen ]N schrittweise zu Syntagmen. Dazu nutzt er die mit den gefundenen Kategorien assoziierte syntaktische Information.
    • Keine der für neuen gefundenen Flexionsformen kann prädikativ oder adverbial gebraucht werden. Folglich muß es sich um ein Attribut handeln.1 Dessen Bezugsnominal ist auf seiner rechten Seite zu suchen. Der Ausdruck Studentinnen eignet sich der Kategorie nach (als Substantiv ist er ein Nominal). Nunmehr werden die sekundären grammatischen Kategorien abgeglichen. Dabei stellt sich heraus, daß von den beiden angeführten Wertekombinationen der Kategorien von neuen nur die zweite brauchbar ist, denn der Singular der ersten paßt nicht zum Plural von Studentinnen. Der Algorithmus bildet folglich die Nominalgruppe [ [ neuen ]Adj [ Studentinnen ]N ]Nom und weist ihr folgende Spezifikation ihrer grammatischen Kategorien zu: Genus: femininum, Numerus: Plural, Kasus: [].
    • Nunmehr versucht der Algorithmus, der mit einem benachbarten Ausdruck zu einem Syntagma zu kombinieren. Der Versuch, die Form als Relativpronomen zu interpretieren, scheitert noch nicht bei der syntaktischen Analyse der hier betrachteten Dreierkette, sondern erst bei der Analyse des ganzen Beispielsatzes. Bei der Interpretation als Demonstrativpronomen kommt substantivische (also selbständige) oder adjektivische (also attributive) Funktion in Betracht. Die Interpretation als substantivisches Demonstrativpronomen scheitert ähnlich wie die als Relativpronomen. Dann bleiben die Funktionen als adjektivisches Demonstrativpronomen oder als definiter Artikel. Diese beiden kann der Algorithmus nur auseinanderhalten, wenn er Information über den Akzent hat. Wir nehmen an, daß die Form hier unakzentuiert, also ein definiter Artikel ist. Der Algorithmus sucht zu diesem sein Bezugsnominal auf der rechten Seite und findet dort das bereits analysierte Syntagma [ [ neuen ]Adj [ Studentinnen ]N ]Nom. Der Kategorie nach eignet es sich zur Kombination. Folglich gleicht der Algorithmus nunmehr die Flexionskategorien ab. Dem definiten Artikel folgende Attribute müssen schwach dekliniert sein. Infolge dieser Beschränkung (engl. constraint) kommt von den möglichen Kasus von [ neuen Studentinnen ] der Nominativ nun nicht mehr infrage. Ferner stellt sich heraus, daß von den drei oben angeführten Wertekombinationen der Kategorien von der nur die letzte brauchbar ist, denn von der ersten paßt das Genus maskulinum, von der zweiten der Numerus Singular nicht zur zuvor erreichten Spezifikation von [ neuen Studentinnen ]. Der dritten kategorialen Spezifikation von der ist aber nunmehr der Kasus Genitiv zu entnehmen, der bei [ neuen Studentinnen ] offengeblieben war. Der Algorithmus bildet folglich das Nominalsyntagma [ [ der ]Art [ [ neuen ]Adj [ Studentinnen ]N ]Nom ]NS und weist ihm folgende Spezifikation seiner grammatischen Kategorien zu: Genus: femininum, Numerus: Plural, Kasus: Genitiv.
      Die Bedeutung (deren Konstruktion hier nicht vorgeführt wurde) ist etwas wie “von der Menge der im Redeuniversum existenten weiblichen Referenten, welche erst seit kurzem Studenten sind”.

Für den gesamten Beispielsatz wäre als nächstes dieses Syntagma mit Ergebnisse, das Resultat mit die und das so gebildete Nominalsyntagma schließlich mit sind besser zu kombinieren. Dann ist der Algorithmus bei einem Satz angelangt. Er gibt die grammatische (und ggf. semantische) Repräsentation der gelesenen Kette aus und liest den nächsten Satz im Text.

Die obigen sechs Schritte entsprechen einer logischen Systematik. Wird der Algorithmus implementiert, so ergeben sich Änderungen im Detail. Z.B. erfordert die in Schritt 3 vorgenommene Lemmatisierung eine mindestens teilweise morphologische Analyse, so daß dort ein Teil von Schritt 5 schon vorweggenommen würde.


1 Wir übergehen hier die Komplikation, daß das Bezugsnominal auch (durch Nullanapher) leer sein könnte. Im Prinzip könnte das Adjektiv auch substantiviert sein; aber da wir hier orthographische Information zur Verfügung haben, fällt diese Möglichkeit flach.