BlogCorpusCrawler

Möglicherweise hat der BlogCorpusCrawler auch Ihr Blog gecrawlt und Sie sind neugierig, was dahintersteckt...

Was geschieht?

Der BlogCorpusCrawler (ehemals BlogCorpusCrawler) sammelt Einträge deutschsprachiger Weblogs.

Wozu dient das?

Blogs sind ein wichtiger Teil der Medienlandschaft geworden. Die systematische Erforschung von Blogs benötigt unter anderem große Mengen an Material. Es gibt aber bisher kein Korpus deutschsprachiger Weblogeinträge. Deswegen wird von mir seit Mitte November 2006 ein Korpus von Blogeinträgen angelegt. Zu diesem Zweck werden von ca. 35000 deutschsprachigen Blogs regelmäßig die Einträge eingesammelt. In Zukunft sollen diese in einem ersten Schritt analog zu den Wörtern des Tages aus den klassischen Medien analysiert werden.

nota bene: Ziel ist es explizit nicht irgendwelche Benutzerprofile oder ähnliches aufzubauen. Es werden ausschließlich öffentlich zugängliche Quellen ausgewertet und die gesammelten Daten ausschließlich zu Forschungszwecken benutzt.

Kann ich mitmachen?

Ja. Beteiligung an einem Projekt "Weblogkorpus Deutsch" ist explizit erwünscht. Einstiegshürde ist eine E-Mail, die es durch meinen Spamfilter schafft.

Wer hat's erfunden?

Matthias Richter ist Stipendiat der Medienstiftung der Sparkasse Leipzig und promoviert am Institut für Informatik der Universität Leipzig.