Downloadseite des Projekts Deutscher Wortschatz / Leipzig Corpora Collection

Das Projekt Deutscher Wortschatz stellt verschiedene Werkzeuge und Daten zum Download zur Verfügung, die dem Urheberrecht unterliegen. Schauen Sie bitte für weitere Details in unsere Nutzungsbedingungen.

Korpusdownload

Das Projekt Deutscher Wortschatz stellt Korpora in verschiedenen Sprachen und Größen zur Verfügung unter Verwendung gleicher Formate und vergleichbarer Quellen. Alle Daten liegen als Plaintext vor und können auch, mithilfe des beilegten Importskriptes, in eine MySQL-Datenbank importiert werden. Sie sind sowohl für die wissenschaftliche Verwendung durch Korpuslinguisten als auch als Eingabematerial für Verfahren der Wissensextraktion geeignet.
Die Korpora enthalten zufällig ausgewählte Sätze der jeweiligen Korpussprache und sind in Größen von 10.000 bis 1.000.000 Sätzen verfügbar. Als Quelle werden typischerweise entweder Nachrichtentexte oder das Ergebniss allgemeinen Webcrawlings verwendet. Die verwendeten Texte sind immer in einzelne Sätze zerlegt und diese zufällig sortiert, so dass eine Wiederherstellung des Ursprungstextes nicht möglich ist. Ungrammatische Sätze und fremdsprachliches Material wurden bestmöglich entfernt. Weil Informationen zu Wortkookkurrenzen für viele Anwendungen hilfreich sind, wurden diese Angaben vorberechnet und sind ebenfalls enthalten. Für jedes Wort werden dabei die signifikantesten Nachbarschafts- (links & rechts) als auch Satzkookkurrenzen aufgeführt. Für mehr Details zur Erstellungsweise der Korpora siehe die unten aufgeführte Veröffentlichung.
Das Projekt Deutscher Wortschatz nutzt öffentlich verfügbare Quellen zur automatischen Korpuserstellung, ohne den Inhalt einzelner Quellen zu betrachten. Es wird keine Verantwortung für die Inhalte der Texte übernommen. Insbesondere stellen Ansichten und Meinungen, die in den Daten enthalten sind, die alleinige Sicht der jeweiligen Autoren dar.

Falls Sie eines unserer Korpora für Ihre Arbeit benutzen, bitten wir Sie diese Veröffentlichung in der folgenden Form zu zitieren:

D. Goldhahn, T. Eckart & U. Quasthoff: Building Large Monolingual Dictionaries at the Leipzig Corpora Collection: From 100 to 200 Languages.
In: Proceedings of the 8th International Language Ressources and Evaluation (LREC'12), 2012

Wählen Sie bitte gewünschte Sprache und Korpusgröße um die jeweilige Archivdatei herunterzuladen.

SentiWS

Der SentimentWortschatz, oder kurz SentiWS, ist eine öffentlich verfügbare deutschsprachige Ressource für die Sentiment Analyse, Opinion Mining und ähnliche Zwecke. Dabei werden für enthaltene Wörter die positive und negative Polarität im Intervall [-1; 1] angegeben, sowie deren Wortart und (falls anwendbar) Flexionsvarianten. Die aktuelle Version des SentiWS enthält 1.650 positive sowie 1.818 negative Grundformen, so dass, inklusive der verschiedenen Flexionsformen, insgesamt 15.649 positive und 15.632 negative Wortformen enthalten sind. SentiWS enthält nicht nur Adjektive und Adverbien, sondern auch Nomen und Verben die Träger von Sentiment sind.

SentiWS liegt in zwei UTF8-kodierten Textdateien vor und ist folgendermaßen strukturiert:
<Word>|<POS tag> \t <Polarity weight> \t <Infl_1>,...,<Infl_k> \n
mit \t als Tabulator und \n als Zeilenumbruch.

SentiWS steht unter der Creative Commons Attribution-Noncommercial-Share Alike 3.0 Unported Lizenz.
Falls Sie SentiWS für Ihre Arbeit einsetzen, bitten wir Sie diese Veröffentlichung in der folgenden Form zu zitieren:

R. Remus, U. Quasthoff & G. Heyer: SentiWS - a Publicly Available German-language Resource for Sentiment Analysis.
In: Proceedings of the 7th International Language Ressources and Evaluation (LREC'10), pp. 1168-1171, 2010

Download SentiWS:
  • v1.8c, 2011-03-21: Zweite öffentliche Version (Korrektur einiger POS-Tags)
  • v1.8b, 2010-05-19: Erste öffentliche Version des SentiWS wie beschrieben in Remus et al. (2010)

TinyCC

TinyCC 2.0 ist ein Perl-Skript, das zur Erstellung von Textkorpora im Format des Deutschen Wortschatzes eingesetzt werden kann.

Dokumentation und Download: TinyCC 2.0