Stefan Schneider - Lingüística románica - Linguistica romanza - Linguistique romane - Romance linguistics

Analyse von Korpora

Was ist ein Korpus?

Dt. das Korpus, die Korpora

"Endliche Menge von konkreten sprachlichen Äußerungen, die als empirische Grundlage für sprachwissenschaftliche Untersuchungen dienen" (Bussmann 1990: 155).

In der Sprachwissenschaft hat man immer versucht, mit authentischem Sprachmaterial zu arbeiten, z. B. mit Wort- oder Satzlisten aus der Literatur. Die korpusunterstützte Analyse ist daher nicht neu, allerdings haben sich ihre Methoden entscheidend verbessert. Das damalige Sprachmaterial war meistens weder ausgewogen und noch repräsentativ und ließ kaum quantitative Aussagen zu.

In den 1960er Jahren begann man, die ersten digitalen Korpora zusammenzustellen. Diese Entwicklung wurde durch einige Faktoren begünstigt bzw. gefördert:
- Fortschritte in der elektronischen Datenverarbeitung (Computerlinguistik)
- Fortschritte in der Aufnahmetechnik (Tonbänder, Kassettenrekorder, etc.)
- Verstärkter Bedarf an Konkordanzen und an Frequenzdaten (quantitative oder statistische Linguistik)
- Ende der 1970er Jahre kam noch das verstärkte Interesse für die gesprochene Sprache hinzu

Heutzutage beinhaltet die Definition von Korpus meistens Folgendes:
- Sammlung von geschriebenen und/oder gesprochenen authentischen Texten
- Groß
- Strukturiert
- Repräsentativ
- Digitalisiert
- Annotiert

Welche Arten von Korpora gibt es?

Korpora gesprochener Sprache / Korpora geschriebener Sprache (Corpus e lessico di frequenza dell'italiano scritto contemporaneo [CoLFIS]) / Korpora gesprochener und geschriebener Sprache (Corpus de referencia del español actual [CREA])

Digitalisierte / nicht digitalisierte Korpora

Online-Korpora / Korpora auf DVD, CD oder anderen Datenträgern (Originalversion des LIP-Korpus, Integrated reference corpora for spoken Romance languages [C-ORAL-ROM])

Online-Korpora mit Suchfunktion (KIParla. L'italiano parlato e chi parla italiano [KIParla]) / herunterladbare Korpora (Beeching 2002: Un corpus d’entretiens spontanés, Corpus oral de referencia de la lengua española contemporánead [CORLEC])

Textkorpora / Korpora mit Audiodateien (LIP-Korpus auf Voce del LIP [VoLIP])

Erwachsenensprache / Kindersprache (Child language data exchange system [CHILDES] oder Korpus des Projekts Communication langagière chez le jeune enfant)

Korpora aktueller Sprache / Korpora älterer Sprachstufen (Base de français médiéval [BFM], Corpus del Tesoro della Lingua Italiana delle Origini [TLIO])

Synchrone / diachrone Korpora (Base textuelle Frantext, Biblioteca italiana [BIBIT], Morfologia dell'Italiano in DIAcronia [MIDIA], Corpus del Nuevo diccionario histórico del español [CDH])

Welche Analysen kann man durchführen?

Erstellen von Frequenzlisten
Unterschied zwischen type und token: Comme nous voulons analyser à travers des approches différentes un même corpus oral, nous avons tenu à choisir un corpus qui ne soit pas trop spécifique dans son genre.
Der Text enthält 25 Types, aber 29 Tokens (= Vorkommen des gleichen Wortes)

Erstellen von Konkordanzen
Unter Konkordanz versteht man die Auflistung von Vorkommen einer bestimmten Wortform oder eines bestimmten Wortes in einem Textkorpus. Meistens wird das Ergebnis als Key word in context (KWIC) dargestellt. Hierbei ist das gesuchte Wort zentriert dargestellt. Zudem wird der folgende und vorangehende Kontext des Wortes angezeigt und auf die betreffende Textstelle verwiesen.

Annotation
- Lemmatisierung: Jedes Wort in einem Korpus wird einer Grundform (Lemma, Wörterbucheintrag) zugewiesen. Das kann in Verbindung mit einem Wörterbuch auch (teil)automatisch erfolgen.
- Bestimmen der Wortklasse (Part of speech tagging oder POS-tagging): Die dabei eingesetzten Programme heißen Tagger.
- Bestimmen der syntaktischen Funktion: Die dabei eingesetzten Programme heißen Parser. Syntaktisch annotierte Korpora werden auch Treebanks genannt

Konkordanzprogramme für txt-Dateien

AntConc: plattformunabhängig; kostenfrei; um eine Endung zu suchen (z. B. -rais für den frz. Konditional), gibt man rais in das Feld Search Term ein und wählt die Option Regex.

CasualConc: Mac OS; kostenfrei.

Contextes: Windows; steht auf der DVD des C-ORAL-ROM-Korpus zur Verfügung.

KwicKwic: Windows; kostenfrei.

MonoConcEsy: Windows; kostenfrei.

TXM: plattformunabhängig; kostenfrei.

WordSmith Tools: Windows; Demo-Version kostenfrei.