Kali (Textkorpus)

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Kali (auch KALI) ist ein Akronym aus „Korpusarbeit Linguistik“ und bezeichnet ein diachrones Textkorpus für die deutsche Sprache als Grundlage für sprachwissenschaftliche Studien zur Grammatikalisierung. Ab 2003 wurde das Kali-Korpus am Deutschen Seminar der Universität Hannover unter der Leitung von Gabriele Diewald aufgebaut.

Umfang[Bearbeiten | Quelltext bearbeiten]

Das Korpus umfasst gegenwärtig acht Jahrhunderte. Die Textauswahl und Aufbereitung sowie die linguistische Annotation und Glossierung liegen bereits in substantiellen Teilen vor. Oktober 2008 bestand das Korpus aus 25 Quellen aus der althochdeutschen und der mittelhochdeutschen Sprachstufe, von denen die meisten auch heute öffentlich und unentgeltlich zugänglich sind.

Zielsetzung und Verfahrensweise[Bearbeiten | Quelltext bearbeiten]

Sämtliche Verben in den vorliegenden Texten des Korpus werden mit morphologischen Informationen annotiert und lemmatisiert. Dabei werden sowohl die synchronen Formen der jeweiligen Sprachstufe als auch die neuhochdeutschen Entsprechungen erfasst. Die Grundlage für die Lemmatisierung bilden einschlägige Wörterbücher: für das Althochdeutsche Rudolf Schützeichel und für das Mittelhochdeutsche Matthias Lexer (erschienen 1872–1878).

Integration in aktuelle Forschungsprojekte[Bearbeiten | Quelltext bearbeiten]

Das Korpus wurde zunächst als Materialgrundlage für diachrone empirische Untersuchungen im Rahmen des Forschungsprojektes „Evidentialitätsmarker im Deutschen“ genutzt, wird aber auch als Datengrundlage in anderen Forschungsprojekten verwendet, beispielsweise im Europäischen Kooperationsprojekt Grammaticalization and (inter)subjectification.

Die Erforschung der Verbalkategorien des Deutschen, vor allem der Kategorien Evidentialität und Modalität, über mehrere Sprachperioden hinweg steht im Mittelpunkt der aktuellen Forschungsprojekte. Dementsprechend werden Verben im Korpus bevorzugt behandelt. Um 2008 wurden sämtliche Verbformen im Korpus morphologisch annotiert und lemmatisiert. Eine Ausweitung der Annotation und Lemmatisierung auf andere Wortarten ist geplant.

Technische Grundlagen[Bearbeiten | Quelltext bearbeiten]

Die technische Grundlage für Kali bildet ein klassisches LAMP-Softwarepaket. Das hierbei verwendete Content-Management-System wurde für die Bedürfnisse der Kali-Benutzer von Grund auf neu entwickelt und bietet für die Korpusbearbeitung webbasierte, intuitiv zu nutzende Werkzeuge für die Lemmatisierung und Annotation. Die Aufbereitung der Daten stellt für die linguistische Forschung sowohl in der Textausgabe als auch mittels ausgereifter Suchfunktionen und einer Hyperlemmatisierung leistungsfähige Möglichkeiten bereit.

Literatur[Bearbeiten | Quelltext bearbeiten]

  • Matthias Lexer: Mittelhochdeutsches Handwörterbuch. Zugleich als Supplement und alphabetischer Index zum Mittelhochdeutschen Wörterbuch von Benecke-Müller-Zarncke. Hirzel, Leipzig 1872–1878 (online auf woerterbuchnetz.de).
  • Matthias Lexer: Mittelhochdeutsches Taschenwörterbuch. In der Ausgabe letzter Hand. 2. Nachdruck der 3. Auflage von 1885. Hirzel, Stuttgart 1992.
  • Rudolf Schützeichel: Althochdeutsches Wörterbuch. 6., überarbeitete und um die Glossen erweiterte Auflage. Niemeyer, Tübingen 2006 (online auf saw-leipzig.de).

Weblinks[Bearbeiten | Quelltext bearbeiten]

  • Die ehemalige offizielle Website ist nicht mehr erreichbar (www.kali.uni-hannover.de).
  • Kali-Korpus auf The Lindat/Clariah-Cz Project. 2020 (englisch; tschechisches Erziehungsministerium).
  • Kali-Korpus bei Open Languages Archives (OLAC), 26. April 2020 (englisch).