Effecitve Way Blocking Spambot, Scraper, SEO Tools & Bad Bots

Besitzt man eine gut sichtbare Webseite, so dauert es nicht lange, bis die ersten Internetnutzer versuchen Webinhalte Ihrer Seite zu analysieren oder gar herunterzuladen. Auch SEOler nutzen neben OnPage and OnSite Tools Linkdatenbanken wie Majestic SEO, ahrefs, OpenSiteExplorer, Sistrix oder Searchmetrics um Backlink Profile gutrankender Webseite ausgespäht und zu analysiert.

blocking bot via htaccess

Mit dem folgenden htaccess Eintrag kann man effektiv Spambots, Scraper, SEO Tools und Bad Bots blockieren. Diese erhalten soweit Sie mit der standard User Agent Kennung arbeiten keinen Zugriff auf den Webserver.

Auch Tools wie Xenu oder SEO Screaming Frog, aber SEOKlicksxovi und andere können bei Standardeinstellung die Seite mit diesem htaccess-Eintrag nicht mehr crawlen.

Downloader wie HTTrack, Download Demon oder Scraping Scripte wie Python-Scripte können nicht mehr auf die Seite zugreifen und nicht korrekt arbeiten.

HTAccess Eintrag zum Blockieren von Spambots, Scraper, SEO Tools oder sogenannten Bad Bots.

RewriteEngine On
SetEnvIfNoCase user-agent "ahrefsbot" bad_bot
SetEnvIfNoCase user-agent "BacklinkCrawler" bad_bot
SetEnvIfNoCase user-agent "^BlackWidow" bad_bot
SetEnvIfNoCase user-agent "^Bot\ mailto:craftbot@yahoo.com" bad_bot
SetEnvIfNoCase user-agent "^ChinaClaw" bad_bot
SetEnvIfNoCase user-agent "^Custo" bad_bot
SetEnvIfNoCase user-agent "^DISCo" bad_bot
SetEnvIfNoCase user-agent "dotbot" bad_bot
SetEnvIfNoCase user-agent "^Download\ Demon" bad_bot
SetEnvIfNoCase user-agent "^eCatch" bad_bot
SetEnvIfNoCase user-agent "^EirGrabber" bad_bot
SetEnvIfNoCase user-agent "^EmailSiphon" bad_bot
SetEnvIfNoCase user-agent "^EmailWolf" bad_bot
SetEnvIfNoCase user-agent "^Express\ WebPictures" bad_bot
SetEnvIfNoCase user-agent "^ExtractorPro" bad_bot
SetEnvIfNoCase user-agent "exabot" bad_bot
SetEnvIfNoCase user-agent "^EyeNetIE" bad_bot
SetEnvIfNoCase user-agent "^FlashGet" bad_bot
SetEnvIfNoCase user-agent "^GetRight" bad_bot
SetEnvIfNoCase user-agent "^GetWeb!" bad_bot
SetEnvIfNoCase user-agent "gigabot" bad_bot
SetEnvIfNoCase user-agent "^Go!Zilla" bad_bot
SetEnvIfNoCase user-agent "^Go-Ahead-Got-It" bad_bot
SetEnvIfNoCase user-agent "^GrabNet" bad_bot
SetEnvIfNoCase user-agent "^Grafula" bad_bot
SetEnvIfNoCase user-agent "^HMView" bad_bot
SetEnvIfNoCase user-agent "HTTrack" bad_bot
SetEnvIfNoCase user-agent "^Image\ Stripper" bad_bot
SetEnvIfNoCase user-agent "^Image\ Sucker" bad_bot
SetEnvIfNoCase user-agent "Indy\ Library" bad_bot
SetEnvIfNoCase user-agent "^InterGET" bad_bot
SetEnvIfNoCase user-agent "^Internet\ Ninja" bad_bot
SetEnvIfNoCase user-agent "^JetCar" bad_bot
SetEnvIfNoCase user-agent "^JOC\ Web\ Spider" bad_bot
SetEnvIfNoCase user-agent "^larbin" bad_bot
SetEnvIfNoCase user-agent "^LeechFTP" bad_bot
SetEnvIfNoCase user-agent "^Mass\ Downloader" bad_bot
SetEnvIfNoCase user-agent "^MIDown\ tool" bad_bot
SetEnvIfNoCase user-agent "^Mister\ PiX" bad_bot
SetEnvIfNoCase user-agent "mj12bot" bad_bot
SetEnvIfNoCase user-agent "^Navroad" bad_bot
SetEnvIfNoCase user-agent "^NearSite" bad_bot
SetEnvIfNoCase user-agent "^NetAnts" bad_bot
SetEnvIfNoCase user-agent "^NetSpider" bad_bot
SetEnvIfNoCase user-agent "^Net\ Vampire" bad_bot
SetEnvIfNoCase user-agent "^NetZIP" bad_bot
SetEnvIfNoCase user-agent "^Octopus" bad_bot
SetEnvIfNoCase user-agent "^Offline\ Explorer" bad_bot
SetEnvIfNoCase user-agent "^Offline\ Navigator" bad_bot
SetEnvIfNoCase user-agent "^PageGrabber" bad_bot
SetEnvIfNoCase user-agent "^Papa\ Foto" bad_bot
SetEnvIfNoCase user-agent "^pavuk" bad_bot
SetEnvIfNoCase user-agent "^pcBrowser" bad_bot
SetEnvIfNoCase user-agent "pixray" bad_bot
SetEnvIfNoCase user-agent "Python-urllib" bad_bot
SetEnvIfNoCase user-agent "^RealDownload" bad_bot
SetEnvIfNoCase user-agent "^ReGet" bad_bot
SetEnvIfNoCase user-agent "^rogerbot" bad_bot
SetEnvIfNoCase user-agent "^Screaming\ Frog\ SEO" bad_bot
SetEnvIfNoCase user-agent "SearchmetricsBot" bad_bot
SetEnvIfNoCase user-agent "seokicks" bad_bot
SetEnvIfNoCase user-agent "sistrix" bad_bot
SetEnvIfNoCase user-agent "sitebot" bad_bot
SetEnvIfNoCase user-agent "^SiteSnagger" bad_bot
SetEnvIfNoCase user-agent "^SmartDownload" bad_bot
SetEnvIfNoCase user-agent "^SuperBot" bad_bot
SetEnvIfNoCase user-agent "^SuperHTTP" bad_bot
SetEnvIfNoCase user-agent "^Surfbot" bad_bot
SetEnvIfNoCase user-agent "^tAkeOut" bad_bot
SetEnvIfNoCase user-agent "^Teleport\ Pro" bad_bot
SetEnvIfNoCase user-agent "twenga2" bad_bot
SetEnvIfNoCase user-agent "unister" bad_bot
SetEnvIfNoCase user-agent "^VoidEYE" bad_bot
SetEnvIfNoCase user-agent "^Web\ Image\ Collector" bad_bot
SetEnvIfNoCase user-agent "^Web\ Sucker" bad_bot
SetEnvIfNoCase user-agent "^WebAuto" bad_bot
SetEnvIfNoCase user-agent "^WebCopier" bad_bot
SetEnvIfNoCase user-agent "^WebFetch" bad_bot
SetEnvIfNoCase user-agent "^WebGo\ IS" bad_bot
SetEnvIfNoCase user-agent "^WebLeacher" bad_bot
SetEnvIfNoCase user-agent "^WebReaper" bad_bot
SetEnvIfNoCase user-agent "^WebSauger" bad_bot
SetEnvIfNoCase user-agent "^Website\ eXtractor" bad_bot
SetEnvIfNoCase user-agent "^Website\ Quester" bad_bot
SetEnvIfNoCase user-agent "^WebStripper" bad_bot
SetEnvIfNoCase user-agent "^WebWhacker" bad_bot
SetEnvIfNoCase user-agent "^WebZIP" bad_bot
SetEnvIfNoCase user-agent "^Wget" bad_bot
SetEnvIfNoCase user-agent "^Widow" bad_bot
SetEnvIfNoCase user-agent "^WWWOFFLE" bad_bot
SetEnvIfNoCase user-agent "^Xaldon\ WebSpider" bad_bot
SetEnvIfNoCase user-agent "^Xenu\ Link\ Sleuth" bad_bot
SetEnvIfNoCase user-agent "xovi" bad_bot
SetEnvIfNoCase user-agent "^Zeus" bad_bot 
<FilesMatch "(.*)">
Order Allow,Deny
Allow from all
Deny from env=bad_bot
</FilesMatch>

Diese Methode ist sauberer als ein Eintrag in der Robots.txt bei dem über disallow eine Direktive an den Bot gegeben wird. Den Bots werden mit dem entsprechenden User Agent der Zugriff auf die Webseite komplett verweigert. Wenige SEO Tools bieten die Möglichkeit, den Standard-User Agent des Tools zu verändern und eine eigene Definition zu hinterlegen. Diese können natürlich nicht mehr so einfach blockiert werden.

Nutzt man selbst diese SEO Tools wie SEO Screaming Frog, Xenu, HTTrack,.. inhouse, so können Sie einfach durch eine Erweiterung des htaccess Eintrages die eigene IP oder IP Range zulassen.

Wisst Ihr weitere User Agents von Tools, Software oder Webseiten, dann freue ich mich, wenn Ihr diese mir mitteilt.

Share this nice post:

Related posts: