| Wortschatz : FAQ : Sprache : Häufigkeitsklassen |
Unter den Angaben zu einem Wort finden Sie unter anderem jeweils eine so genannte Häufigkeitsklasse. Vielleicht haben Sie sich ja auch schon einmal gefragt, was es denn damit auf sich haben könnte: In (natürlichen) Sprachen kommen die einzelnen Wörter in unterschiedlicher Häufigkeit vor und zwar so, dass relativ wenige Wörter sehr häufig und sehr viele Wörter sehr selten vorkommen. Diesen Umstand spiegeln die Häufigkeitsklassen wieder: Die folgende Grafik zeigt die Verteilung
der Wörter in der Datenbank auf die verschiedenen
Häufigkeitsklassen. Ist es nicht verblüffend, dass
die Werte fast auf einer Geraden liegen? Was Sie vielleicht verblüfft hat, erklärt sich folgendermaßen: Die Verteilung folgt dem Zipf'schen Gesetz (benannt nach dem Harvard-Professor für Linguistik George Kingsley Zipf (1902-1950)). Dieses besagt, dass die die Häufigkeit P eines Ereignisses (in unserem Fall: Wortes) als Funktion des Rangs i gemessen an der relativen Häufigkeit (verglichen wird mit dem häufigsten Ereignis) sich wie folgt verhält: Pi ~ 1 / ia. a ist dabei eine Zahl, die sehr nahe an 1 liegt. Doppelt logarithmisch visualisiert sieht
man dies recht einfach dadurch, dass sich eine Gerade
im log(Rang)
- log(Häufigkeit) - Diagramm ergibt. Da bei unserer
Berechnung der Häufigkeitsklassen bereits einmal der
Logarithmus im Spiel ist, braucht in der Grafik nur noch
die Anzahl-Achse logarithmisch angetragen zu werden, um
das zipf'sche Gesetz in Aktion zu sehen: |