Was ist crawler4j?
indexiert und analysiert Inhalte von Webseiten.
Der Webrobot crawler4j indexiert und analysiert Inhalte von Webseiten. Er zeigt sich meistens mit der IP Adresse 217.160.178.98 und unter Verwendung des User Agent crawler4j (http://code.google.com/p/crawler4j/). Mit 0.0001% Marktanteil ist crawler4j auf Platz 198 der aktivsten Webrobots im Internet.
„Crawler4j is an open source Java crawler which provides a simple interface for crawling the Web. You can setup a multi-threaded web crawler in 5 minutes!"
— Offizielle Beschreibung des Betreibers
robots.txt – crawler4j blockieren
Füge diese Zeilen in deine robots.txt ein, um crawler4j den Zugriff auf deine Website zu verwehren:
User-agent: crawler4j
Disallow: /
Du kannst den Zugriff auch gezielt einschränken, statt ihn komplett zu blockieren:
User-agent: crawler4j
Disallow: /wp-admin/
Disallow: /wp-includes/
Allow: /
IP-Adressen 9 bekannte IPs
Diese IP-Adressen wurden bisher von crawler4j verwendet:
217.160.178.98
87.166.23.188
87.166.26.131
87.166.27.83
87.166.31.50
87.166.31.62
87.166.5.235
87.166.6.117
93.152.154.171
User Agents
Mit diesen User-Agent-Strings identifiziert sich crawler4j:
crawler4j (http://code.google.com/p/crawler4j/)