Portal Deutscher Wortschatz : Sitemap

Willkommen zur Abfrage des de.wikipedia-Korpus.

Datengrundlage ist ein Dump der deutschsprachigen Wikipedia-Datenbank vom August 2007.
Ausgewertet wurden der Artikelnamensraum sowie die Linkstruktur zwischen den Artikeln.
Geben Sie in die Suchmaske ein Wort oder einen Mehrwortbegriff ein, um sich Informationen dazu anzeigen zu lassen.
Nota bene: Die Abfrage unterscheidet Klein- und Großschreibung.

Gesuchtes Wort: in Text   Linkstruktur  

Wer hat's gemacht und wie kann ich es nutzen?

Die Weiternutzung der Wikipedia-Daten darf unter den Bedingungen der GNU Free Documentation License (lokale Kopie) erfolgen. Als Urheber dieser Aufbereitung zu benennen ist Matthias Richter, Projekt Deutscher Wortschatz an der Uni Leipzig.

Ansprechpartner für Rückfragen zum Wikipedia-Korpus ist Matthias Richter (Wikipedia-Nutzerseite).

Was soll das mit den Kookkurrenzen?

Wir stellen uns ein simples Experiment vor, bei dem getestet wird, ob zwei Wörter gemeinsam in einem Satz auftreten oder nicht. Dieses Experiment wiederholen wir für alle möglichen Wortpaare auf allen Sätzen des Wikipedia-Dumps. Ein statistisches Maß gestattet nun anhand der ermittelten Anzahlen der Wörter und der Anzahl der Sätze zu entscheiden, ob das gemeinsame Auftreten signifikant war. Ein gemeinsames Auftreten, das auf dem 5%-Fehlerniveau signifikant ist, nennen wir Kookkurrenz. Siehe Dunning (1993): Accurate Methods for the Statistics of Surprise and Coincidence für Details zum verwendeten log-likelihood-Maß. Die eingesetzten Methoden sind in C. Biemann, S. Bordag, G. Heyer, U. Quasthoff, und C. Wolff (2004): Language-independent Methods for Compiling Monolingual Lexical Data beschrieben.

Für die Kookkurrenz-Analyse der Linkstruktur wurden für jeden Artikel aus dem Artikeltext alle Links (bis auf den Link auf den Artikel selbst) genau einmal extrahiert und analog zu den Wörtern der Sätze einer Analyse unterzogen. Als Eingabe sinnvoll sind dabei ausschließlich Artikelnamen.