![]() |
| Wortschatz :
Suche : NextLinks : FindLinks |
ZielZiel von FindLinks ist die Beschaffung der
Datengrundlage für NextLinks. Dazu werden aus möglichst
vielen HTML-Seiten (zunächst aus den Domänen .de, .at und
.ch) die darin auftretenden Links analysiert. StatusDas System befindet sich in der Betatestphase. Der FindLinks-Client ist noch nicht frei verfügbar. SystemarchitekturFindLinks besteht aus dem FindLinks-Server und FindLinks-Clients. Der FindLinks-Server ist verantwortlich für die Verteilung der auszuwertenden URLs an die FindLinks-Clients. Die FindLinks-Clients nehmen die eigentliche Auswertung vor und senden nur das Auswertungsergebnis zurück an den Server. Die Clients können an beliebigen Stellen im Internet betrieben werden. Technische RealisierungDer FindLinks-Server verfügt über eine Liste von mehreren Millionen URLs, die nacheinander ausgewertet werden sollen. Die einzelnen Clients erhalten davon jeweils Pakete zu 500 URLs. Ein Client versucht, nacheinander diese 500 HTML-Seiten herunterzuladen. Aus jeder so erhaltenen HTML-Seite werden die Links extrahiert und nur die Liste der Links wird als ein Datensatz pro HTML-Seite an den Server zurückgeschickt. Danach erhält der Client das nächste Paket von 500 URLs usw. Für Webmaster: Lastverteilung und robots.txtDurch eine möglichst günstige Reihenfolge
der URLs soll sichergestellt werden, dass nicht einzelne
Server dadurch überlastet werden, dass binnen kurzer Zeit
eine große Anzahl von Anfragen gestellt werden.
Die Datei robots.txt wird vom FindLinks-Server
berücksichtigt. Änderungen in einer solchen Datei wirken
sich nach spätestens ca. 30 Tagen aus. ImpressumFindLinks ist ein Projekt der Abteilung Automatische Sprachverarbeitung des Instituts für Informatik der Universität Leipzig. Kontakt: wort@informatik.uni-leipzig.de |