Language & Information Lab.
In den Sommersemester 2003
und 2004 wird die Veranstaltung durch ein
Blockseminar
zur Computerlinguistik ersetzt.
Folgende Kurse werden in Zweijahresrhythmus von Pius ten Hacken abgehalten: | |
---|---|
WS 01/02 | Computerlinguistik I : Wörterbücher und automatische Morphologieanalyse in der Computerlinguistik |
SS 2002 | Computerlinguistik II : Grammatiktheorien und ihre Anwendung in der Sprachverarbeitung (neu: HPSG) |
WS 02/03 | Formalisierte Grammatiken für die Sprachverarbeitung I : Reguläre und Kontext-freie Sprachen |
SS 2001 | Formalisierte Grammatiken für die Sprachverarbeitung II : Chomsky-Hierarchie, Propositions- und Prädikatenlogik |
Die Veranstaltungen sind zo gestaltet, dass es jedes Semester möglich ist, in den Zyklus einzusteigen.
Da die Erstellung von Wörterbücher für die Computerlinguistik sehr aufwendig ist, ist in verschiedener Weise versucht worden, der Gesamtaufwand durch Wiederverwendung bereits geleisteter Arbeit oder Erstellung von wiederverwendbaren Komponenten zu verringern. Da Wörter, wie sie in Texten vorkommen, auch mit den Wörterbucheinträgen verbunden werden müssen, bildet die Morphologie eine wichtige Schnittstelle zwischen Wörterbüchern und computerlinguistischen Systemen. Es werden hier einige der wichtigsten Ansätzen vorgestellt, die die Probleme, die sich in den Bereichen Wörterbuch und Morphologie stellen, in unterschiedlichen Weisen zu lösen versuchen. Behandelt werden u. A. lexikalische Datenbanken (z.B. Celex ), Zweiebenemorphologie , Defaultnetzwerke ( DATR ), und Word Manager , ein Projekt woran zur Zeit in Basel gearbeitet wird. Zusatzinformationen .
Ein Parser ist ein Programm, das mit einer Grammatik und einem Satz als Input eine Analyse dieses Satzes hervorbringt. Der Erfolg eines Parsers hängt zum Teil davon ab, wie gut die Grammatik sich als Beschreibung der Sprachstruktur eignet, zum Teil auch davon, wie gut die Grammatik sich in der Strukturerkennung einsetzen lässt. Es gibt eine Reihe von Sprachtheorien, die unterschiedliche Formalismen und Modelle benutzen. In dieser Veranstaltung werden wir eine solche Theorie, die Head-Driven Phrase Structure Grammar (HPSG), im Detail behandeln. HPSG gehört zu den am meisten benutzten Theorien in der Computerlinguistik. Mit dem Buch von Sag & Wasow, das wir als Leitfaden benutzen werden, liegt eine gut zugängliche Beschreibung vor. Zusatzinformationen .
Sag, Ivan A. & Wasow, Thomas (1999), Syntactic Theory: A Formal Introduction, Stanford: CSLI.
Techniken für die formale Beschreibung von Sprachen spielen
eine wichtige
Rolle sowohl in der Anwendung von Computern für die Bearbeitung
von
natürlichen Sprachen, wie auch in der Definition und Benutzung von
Programmiersprachen.
Die Beschreibungen können die Form von regulären Ausdrucken,
(generativen)
Grammatiken oder Erkennungsautomaten haben.
In dieser Veranstaltung werden die zwei einfachsten Typen von
Grammatiken und Automaten behandelt, die auch am häufigsten
benutzt werden: die regulären
oder finite-state und die kontextfreien Mechanismen. Der
Schwerpunkt
liegt auf Einsicht und praktischen Fähigkeiten (Übungen).
Formale
Beweise werden nur behandelt, sofern sie zur Einsicht beitragen.
Die Veranstaltung besteht aus einem Vorlesungs- und einem
Übungsteil. Im Vorlesungsteil wird die Theorie erklärt. Im
Übungsteil werden die Hausaufgaben besprochen, die praktische
Anwendungen der Theorie beinhalten. Zusatzinformationen
Organisatorisch besteht die Veranstaltung aus einem Vorlesungsteil, worin die Theorie erklärt wird, und einem Übungsteil, worin die Hausaufgaben, die praktische Anwendungen der Theorie beinhalten, besprochen werden. Für den Teil über die Chomsky-Hierarchie ist die Teilnahme an Formalisierte Grammatiken I ein Vorteil, aber nicht unbedingt notwendig.