Das Projekt Deutscher Wortschatz stellt verschiedene Werkzeuge und Daten zum Download zur Verfügung, die dem Urheberrecht unterliegen. Schauen Sie bitte für weitere Details in unsere Nutzungsbedingungen.
Das Projekt Deutscher Wortschatz stellt Korpora in verschiedenen Sprachen und Größen zur Verfügung unter Verwendung gleicher Formate und vergleichbarer Quellen. Alle Daten liegen als Plaintext vor und können auch, mithilfe des beilegten Importskriptes, in eine MySQL-Datenbank importiert werden. Sie sind sowohl für die wissenschaftliche Verwendung durch Korpuslinguisten als auch als Eingabematerial für Verfahren der Wissensextraktion geeignet.
Die Korpora enthalten zufällig ausgewählte Sätze der jeweiligen Korpussprache und sind in Größen von 10.000 bis 1.000.000 Sätzen verfügbar. Als Quelle werden typischerweise entweder Nachrichtentexte oder das Ergebniss allgemeinen Webcrawlings verwendet. Die verwendeten Texte sind immer in einzelne Sätze zerlegt und diese zufällig sortiert, so dass eine Wiederherstellung des Ursprungstextes nicht möglich ist. Ungrammatische Sätze und fremdsprachliches Material wurden bestmöglich entfernt. Weil Informationen zu Wortkookkurrenzen für viele Anwendungen hilfreich sind, wurden diese Angaben vorberechnet und sind ebenfalls enthalten. Für jedes Wort werden dabei die signifikantesten Nachbarschafts- (links & rechts) als auch Satzkookkurrenzen aufgeführt. Für mehr Details zur Erstellungsweise der Korpora siehe die unten aufgeführte Veröffentlichung. Weitere Informationen zum Format und Inhalt der Dateien finden Sie hier.
Das Projekt Deutscher Wortschatz nutzt öffentlich verfügbare Quellen zur automatischen Korpuserstellung, ohne den Inhalt einzelner Quellen zu betrachten. Es wird keine Verantwortung für die Inhalte der Texte übernommen. Insbesondere stellen Ansichten und Meinungen, die in den Daten enthalten sind, die alleinige Sicht der jeweiligen Autoren dar.
Falls Sie eines unserer Korpora für Ihre Arbeit benutzen, bitten wir Sie diese Veröffentlichung in der folgenden Form zu zitieren:
D. Goldhahn, T. Eckart & U. Quasthoff: Building Large Monolingual Dictionaries at the Leipzig Corpora Collection: From 100 to 200 Languages.
In: Proceedings of the 8th International Language Resources and Evaluation (LREC'12), 2012
Wählen Sie bitte die gewünschte Sprache aus; Sie werden auf die entsprechende Download-Seite weitergeleitet.
Der SentimentWortschatz, oder kurz SentiWS, ist eine öffentlich verfügbare deutschsprachige Ressource für die Sentiment Analyse, Opinion Mining und ähnliche Zwecke. Dabei werden für enthaltene Wörter die positive und negative Polarität im Intervall [-1; 1] angegeben, sowie deren Wortart und (falls anwendbar) Flexionsvarianten. Die aktuelle Version des SentiWS enthält ungefähr 1.650 positive und 1.800 negative Grundformen, so dass, inklusive der verschiedenen Flexionsformen, insgesamt etwa 16.000 positive und 18.000 negative Wortformen enthalten sind. SentiWS enthält nicht nur Adjektive und Adverbien, sondern auch Nomen und Verben die Träger von Sentiment sind.
SentiWS liegt in zwei UTF8-kodierten Textdateien vor und ist folgendermaßen strukturiert:
<Word>|<POS tag> \t <Polarity weight> \t <Infl_1>,...,<Infl_k> \n
mit \t als Tabulator und \n als Zeilenumbruch.
R. Remus, U. Quasthoff & G. Heyer: SentiWS - a Publicly Available German-language Resource for Sentiment Analysis.
In: Proceedings of the 7th International Language Resources and Evaluation (LREC'10), pp. 1168-1171, 2010
TinyCC 2.0 ist ein Programm das zur Erstellung von Textkorpora im Format des Deutschen Wortschatzes eingesetzt werden kann.
Dokumentation und Download:
TinyCC 2.0
Die ASV Toolbox ist eine Sammlung verschiedener Werkzeuge zur Auswertung geschriebener Sprache. Sie entstand an der Abteilung für Automatische Sprachverarbeitung und wird nicht mehr weiterentwickelt.
Download bei der Language Technology Group, Universität Hamburg:
ASV Toolbox