Wie kann ich magpie-crawler per robots.txt blockieren?

Fuege in der robots.txt die Zeilen "User-agent: magpie-crawler" und "Disallow: /" ein. Pruefe danach, ob der Crawler robots.txt-Regeln respektiert.

Woran erkenne ich magpie-crawler?

Typische Hinweise sind der User-Agent-String, bekannte IP-Adressen, Betreiberinformationen und wiederkehrende Zugriffe in Server-Logs.

magpie-crawler: User-Agent, IPs & robots.txt blockieren

Q: Was ist magpie-crawler?

Was ist magpie-crawler?, Infos zu User-Agent, 7 IP-Adressen, Betreiber brandwatch.net und robots.txt-Regeln zum Erkennen oder Blockieren des Crawlers. Bekannter Betreiber-Hinweis: brandwatch.net.

687Zugriffe

0,006%Marktanteil

Okt. 2014Erstmals gesehen

28.05.2015Zuletzt aktiv

Was ist magpie-crawler?

indexiert und analysiert Inhalte von Webseiten.

Der Webrobot magpie-crawler indexiert und analysiert Inhalte von Webseiten. Er zeigt sich meistens mit der IP Adresse 185.25.33.72 und unter Verwendung des User Agent magpie-crawler/1.1 (U; Linux amd64; en-GB; http://www.brandwatch.net). Mit 0.0062% Marktanteil ist magpie-crawler auf Platz 102 der aktivsten Webrobots im Internet.

„Continue"
— Offizielle Beschreibung des Betreibers

Basisanalyse

Technische Einordnung von magpie-crawler

magpie-crawler wurde in Webserver-Logs als Bot oder Crawler erkannt. Die wichtigsten technischen Hinweise findest du auf dieser Seite: bekannte User-Agents, beobachtete IP-Adressen, Aktivitätsdaten und passende robots.txt-Regeln.

Für eine konkrete Entscheidung solltest du zusätzlich prüfen, welche URLs magpie-crawler abruft, wie häufig die Zugriffe sind und ob der Bot deine robots.txt-Regeln respektiert.

Tipp: Wenn der Bot viel Traffic erzeugt oder sensible Bereiche abruft, prüfe neben robots.txt auch Firewall- oder WAF-Regeln.

Gefahreneinschätzung und Bewertung

Sollte man magpie-crawler blockieren?

Prüfe zuerst Zugriffshäufigkeit, aufgerufene URLs und User-Agent. Danach kannst du entscheiden, ob eine Blockierung sinnvoll ist.

Erst Logdaten prüfen

robots.txt – magpie-crawler blockieren

Füge diese Zeilen in deine robots.txt ein, um magpie-crawler den Zugriff auf deine Website zu verwehren:

robots.txt

User-agent: magpie-crawler
Disallow: /

Du kannst den Zugriff auch gezielt einschränken, statt ihn komplett zu blockieren:

robots.txt (selektiv)

User-agent: magpie-crawler
Disallow: /wp-admin/
Disallow: /wp-includes/
Allow: /

Häufige Fragen zu magpie-crawler

Ist magpie-crawler gut oder schlecht?

Das hängt vom Einsatzzweck ab. magpie-crawler ist als Web-Crawler eingeordnet. Entscheidend sind Nutzen, Serverlast, Crawl-Verhalten und ob der Bot deine robots.txt-Regeln respektiert.

Wie erkenne ich magpie-crawler in Server-Logs?

Suche nach dem User-Agent-Namen magpie-crawler. Ein beobachteter User-Agent ist magpie-crawler/1.1 (U; Linux amd64; en-GB; http://www.brandwatch.net). Vergleiche ausserdem IP-Adressen, Zugriffsmuster und aufgerufene URLs.

Reicht robots.txt zum Blockieren?

robots.txt ist ein Hinweis für regelkonforme Crawler. Unerwünschte oder aggressive Bots können diese Regeln ignorieren. In solchen Fällen helfen zusätzlich Firewall-Regeln, WAF-Regeln oder Blockierungen im Hosting/CDN.

Kann ein Bot seinen User-Agent fälschen?

Ja. Ein User-Agent ist leicht zu fälschen. Für wichtige Entscheidungen solltest du zusätzlich IP-Adresse, Reverse-DNS, Zugriffsmuster, Häufigkeit und aufgerufene URLs prüfen.

IP-Adressen 7 bekannte IPs

Diese IP-Adressen wurden bisher von magpie-crawler verwendet:

185.25.33.72

5.102.174.132

94.228.34.203

94.228.34.238

94.228.34.249

94.228.34.250

94.228.34.251

User Agents

Mit diesen User-Agent-Strings identifiziert sich magpie-crawler:

magpie-crawler/1.1 (U; Linux amd64; en-GB; http://www.brandwatch.net)

Weitere nützliche Tools

A-ZWebrobots von A-Z IPWebrobot IP Lookup

magpie-crawler

Was ist magpie-crawler?

Technische Einordnung von magpie-crawler

Sollte man magpie-crawler blockieren?

Betreiber

Auf einen Blick

robots.txt – magpie-crawler blockieren

Häufige Fragen zu magpie-crawler

IP-Adressen 7 bekannte IPs

User Agents

Weitere nützliche Tools

7 Fälle in denen hohes Keyword Suchvolumen eine Falle ist (und warum es sich dennoch lohnen kann)

Domaininhaber ermitteln mit der Whois-Abfrage: Wem gehört die Domain

Freie Domains finden und die Vorteile einer eigenen Domain für Blogs

Was ist magpie-crawler?

Technische Einordnung von magpie-crawler

Sollte man magpie-crawler blockieren?

Betreiber

Auf einen Blick

robots.txt – magpie-crawler blockieren

Häufige Fragen zu magpie-crawler

IP-Adressen 7 bekannte IPs

User Agents

Weitere nützliche Tools

Weitere bekannte Bots

7 Fälle in denen hohes Keyword Suchvolumen eine Falle ist (und warum es sich dennoch lohnen kann)

Domaininhaber ermitteln mit der Whois-Abfrage: Wem gehört die Domain

Freie Domains finden und die Vorteile einer eigenen Domain für Blogs