Wortschatz : Suche : NextLinks : FindLinks

Ziel

Ziel von FindLinks ist die Beschaffung der Datengrundlage für NextLinks. Dazu werden aus möglichst vielen HTML-Seiten (zunächst aus den Domänen .de, .at und .ch) die darin auftretenden Links analysiert.
Es ist vorgesehen, ähnlich wie bei seti@home (siehe http://setiathome.ssl.berkeley.edu/), in einem verteilten System ungenutzte Kapazitäten an Rechenleistung und Bandbreite für die Analyse der Linkstruktur des Webs zu nutzen. Dazu soll in Kürze der FindLinks-Client frei zugänglich gemacht werden.

Status

Das System befindet sich in der Betatestphase. Der FindLinks-Client ist noch nicht frei verfügbar.

Systemarchitektur

FindLinks besteht aus dem FindLinks-Server und FindLinks-Clients. Der FindLinks-Server ist verantwortlich für die Verteilung der auszuwertenden URLs an die FindLinks-Clients. Die FindLinks-Clients nehmen die eigentliche Auswertung vor und senden nur das Auswertungsergebnis zurück an den Server. Die Clients können an beliebigen Stellen im Internet betrieben werden.

Technische Realisierung

Der FindLinks-Server verfügt über eine Liste von mehreren Millionen URLs, die nacheinander ausgewertet werden sollen. Die einzelnen Clients erhalten davon jeweils Pakete zu 500 URLs. Ein Client versucht, nacheinander diese 500 HTML-Seiten herunterzuladen. Aus jeder so erhaltenen HTML-Seite werden die Links extrahiert und nur die Liste der Links wird als ein Datensatz pro HTML-Seite an den Server zurückgeschickt. Danach erhält der Client das nächste Paket von 500 URLs usw.

Für Webmaster: Lastverteilung und robots.txt

Durch eine möglichst günstige Reihenfolge der URLs soll sichergestellt werden, dass nicht einzelne Server dadurch überlastet werden, dass binnen kurzer Zeit eine große Anzahl von Anfragen gestellt werden. Die Datei robots.txt wird vom FindLinks-Server berücksichtigt. Änderungen in einer solchen Datei wirken sich nach spätestens ca. 30 Tagen aus.
Bei akuten Problemen bitten wir um eine kurze E-Mail an wort@informatik.uni-leipzig.de, um sofort reagieren zu können.

Impressum

FindLinks ist ein Projekt der Abteilung Automatische Sprachverarbeitung des Instituts für Informatik der Universität Leipzig. Kontakt: wort@informatik.uni-leipzig.de

[ email schicken ]