Filters en gebruiksbeperkingen
Sat, 11 Feb 2006 17:59 +0100
discussiegroep: PretLetters
Reageer via de discussiegroep bij Google.
Meer dan eens heb ik in de logs van mijn website teruggezien hoe grabbers, downloaders, offline readers, rippers, capturers of snaggers talloze van mijn pagina's opvroegen in luttele seconden. Ruim honderd soms. En dat inclusief alles wat met die pagina's meekomt (afbeeldingen, stijlbladen, bijlagen et cetera). Dat kost me relatief gezien behoorlijk wat bandbreedte. En dan vermoed ik toch dat de site ripper die dat verbruik genereert, lang niet alles van wat z/hij gedownload heeft, werkelijk gaat zitten bekijken.
Ik vind dat onplezierig. Ik betaal voor de bandbreedte die mijn site verbruikt. Dan wil ik die niet op zien gaan aan onnut dataverkeer.
Dus ging ik op zoek naar een overzicht van bekende grabbers en offline readers en zo. Ik vond een mooi en bruikbaar overzicht op psychedelix.com/agents/. Dat is een complete database van een groot aantal bekende search engine bots, crawlers, spiders et cetera. Ook grabbers zijn in die pagina's gepubliceerd.
Het kostte me een uurtje, maar ik heb (handmatig) de grabbers uit dat overzicht gevist. Het zijn er ruim honderd1), inclusief de bekende zoals Wget en SiteSucker.
Dat uurtje heb ik niet zomaar zitten spelen natuurlijk. Ik had een doel met die lijst: het ontzeggen van de toegang tot mijn site voor elk van de geïdentificeerde offline readers en alles dat daar op lijkt. Per gevonden ripper heb ik in mijn httpd.ini de volgende regeltjes opgenomen2) (als voorbeeld de downloader Wget):
# Grabber etc
Rewrite Cond User-Agent: .*Wget/[0-9]\..*
Rewrite Rule .* /errors/foo.htm [F,I]
Waarbij /errors/foo.htm een verwijzing is naar een pagina die uitlegt waarom je met een grabber niet veel klaarspeelt op mijn site. De crux van die pagina is Don't waste or abuse my bandwidth: use it well! If you think there is something interesting here, by all means: browse, on line.
Ik heb die lijst nog maar een paar dagen geactiveerd, maar de eerste registratie van het opvragen van de pagina waar ik naar doorverwijs, heb ik in mijn logs al teruggevonden. Het werkt dus.
Behalve het fenomeen page grabber bestaan er ook grote aantallen 'bad bots'. Vanaf diezelfde pagina's van psychedelix.com heb ik een lijstje samengesteld van zo'n vijftig bad bots3) waaronder meerdere
Om deze spam bots van mijn site te weren, redirect ik ze stuk voor stuk naar een image van een pixel groot. Aan de logs van dat ene kleine bestandje, kan ik zien welke spam bots er zoal langskomen. De eerste zijn al gesignaleerd.
Een voorbeeld van een redirect voor zo'n bad bot, code snippet:
# Spam bot RewriteCond User-Agent: .*LWP\:\:Simple/5\.803.* Rewrite Rule .* /afbeeldingen/foo.jpe [F,I]
Niet alle kwaad kan ik weren, dat begrijp ik. Maar als ik die lijsten actueel weet te houden voor mezelf, weer ik toch vele Mb's slurpende free riders, harvesters of zelfs
Ik heb me wezenloos gezocht naar een eenvoudige een bruikbare lijst van alle grabbers en van alle
Om het u makkelijker te maken: in het voetnootgedeelte van dit artikel treft u de door mij handmatig samengestelde lijsten van rippers of offline readers en spam bots. Gebruik ze gerust voor het samenstellen van eigen filters. Let daarbij wel even op de gebruiksbepalingen voor die lijsten.
| Categorie: webontwerp |
1) Dit is het complete overzicht per
Alligator [0-9].
Charon/[0-9].[0-9] (Amiga)
collage.cgi/[0.9].
curl/[0-9].
DA [0-9].[0-9]
DC-Sakura/[0-9].
DDD
Der große BilderSauger [0-9].
dlman
Download Demon/[0-9].
Download Druid [0-9].
Download Express [0-9].
Download Master
Download Ninja [0-9].
Download Wonder
Download.exe([0-9].
eCatch/[0-9].
Express WebPictures
Extreme Picture Finder
FDM [0-9].
fetch libfetch/[0-9].
FileHound [0-9].
FlashGet
FLATARTS_FAVICO
FreshDownload/[0-9].
Gamespy_Arcade
GetBot
GetRight/[0-9].
GetRightPro/[0-9].
Go!Zilla [0-9].
Go!Zilla/[0-9].
Go-Ahead-Got-It/[0-9].
HiDownload
HTML[0-9]JPG Enterprise
HTMLParser/[0-9].
HTTP::Lite/[0-9].
HTTPResume v. [0-9].
ICOO Loader v.[0-9].
iGetter/[0-9]
InstallShield DigitalWizard
Interarchy/[0-9].[0-9].[0-9] (InterarchyCrawler)
Iria/[0-9].
Irvine/[0-9].
Java/1.4.1_01
Java1.4.0
JBH Agent [0-9].
JetCar
JoBo/
JOC Web Spider
Kapere
Kontiki Client [0-9].
LeechGet 200[0-9]
LightningDownload/[0-9].
Mass Downloader [0-9].
MetaProducts Download Express/[0-9].
MFHttpScan
Mister Pix II [0-9].
Mister PiX version.dll
moiNAG [0-9].
Mozilla/3.0 (compatible)
Mozilla/3.0 (compatible; HP Web PrintSmart [0-9]
Mozilla/3.0 (compatible; netart generator/[0-9].
Mozilla/3.0 (compatible; WebCapture [0-9].
Mozilla/3.0 (DreamPassport/[0-9].
Mozilla/4.0 (compatible; Arachmo)
Mozilla/4.0 (compatible; DnloadMage [0-9].
Mozilla/4.0 (compatible; MSIE [0-9].[0-9]; Windows
NT [0-9].[0-9]; AspTear [0-9].
Mozilla/4.0 (compatible; MSIE [0-9].[0-9]; Windows
NT [0-9].[0-9]; iRider [0-9].
Mozilla/4.01 \[en\](Win95;I)
Mozilla/4.5 (compatible; HTTrack [0-9].[0-9][0-9];
Windows 98)
MSIE 4.0 (Win95)
MyGetRight/[0-9].
naoFavicon4IE/[0-9].
NetAnts/[0-9].
NetPumper/[0-9].
Nitro Downloader [0-9].
Octopus
Offline Explorer [0-9].
PagmIEDownload
pavuk/[0-9].[0-9]p
Pockey/[0-9].
Pockey[0-9].
Pockey-GetHTML/[0-9].
puf/[0-9].
PuxaRapido v[0-9].
RealDownload/[0-9].
SBL-BOT (http://sbl.net)
Shareaza v[0-9].
SiteSnagger
SiteSucker/[0-9].
SmartDownload/[0-9].
SpeedDownload/[0-9].
SQ Webscanner
Stamina/[0-9].
Star Downloader
StarDownloader/[0-9].
SuperBot/[0-9].[0-9] (Win32)
Teleport Pro/[0-9].
The Expert HTML Source Viewer
Twisted PageGetter
URLGetFile
: FileHeap! file downloader
UtilMind HTTPGet
vb wininet
Web Image Collector
WebAuto/[0-9].
webcollage/[0-9].
WebCopier v[0-9].
WebDownloader for
WebFetch
webfetch/[0-9].
WebMiner/[0-9].
WeBoX/[0-9].
WebPix [0-9].
WebQL
WebReaper
Website eXtractor
WebStripper/[0-9].
Wget/[0-9].
Wildsoft Surfer
WordChampBot
WWWOFFLE/[0-9].
Xaldon WebSpider
Als je deze lijst voor jezelf wilt gebruiken, let dan even op het volgende:
- De lijst die ik met de hand heb samengesteld, is als lijst auteursrechtelijk beschermd. Gebruiken om een eigen filter samen te stellen mag uiteraard, maar herpublicatie is verboden.
- Als je deze lijst wilt gebruiken om er een filter mee samen te stellen voor je eigen site,
- Let er dan op dat je overal een correcte regular expression van maakt en
- Besef dat deze lijst alle grabbers bevat die ik tegenkwam, indiscriminatoir. Dat kan wat teveel van het goede zijn. Bepaal eerst zelf welke User Agent je wel en niet op je site toestaat, voor je de lijst inzet.
Deze aandachtspunten voor eerlijk gebruik, gelden ook voor de volgende lijst, het complete overzicht van alle bekende spam bots.
2) Mijn domein is gehost op een httpd.ini' heet (in plaats van '.htaccess) en zijn de voorbeelden geschreven voor gebruik met de ISAPI_Rewrite_Mod in plaats van met Apache redirect.
3) Het complete overzicht van spam bots of
atSpider
autoemailspider
ContentSmartz
DataCha0s/
DBrowse [0-9].
Demo Bot [A-Z]
Surf15a
EBrowse [0-9]
Educate Search V[0-9][A-Z]
#Spam bot
RewriteCond User-Agent:EmailSiphon
EmailWolf
ExtractorPro
Full Web Bot
Industry Program 1.0.[0-9]
infoConveraCrawler/[0-9].
IUPUI Research Bot v [0-9].
LARBIN-EXPERIMENTAL (efp@gmx.net)
LetsCrawl.com/[0-9].
Lincoln State Web Browser
LWP::Simple/5.803
Mac Finder 1.0.[0-9][0-9]
MFC Foundation Class Library [0-9].
Microsoft URL Control - 6.00.8[0-9][0-9][0-9]
Missauga Locate [0-9].[0-9].
Missigua Locator [0-9].[0-9]
Missouri College Browse
Mizzu Labs [0-9].
Mozilla/2.0 (compatible; NEWT ActiveX; Win32)
Mozilla/3.0 (compatible)
Mozilla/3.0 (compatible; Indy Library)
Mozilla/4.0 (compatible; Advanced Email Extractor
v[0-9].[0-9][0-9])
Mozilla/4.0 (compatible; Iplexx Spider/[0-9].[0-9]
http://www.iplexx.at)
Mozilla/4.0 (compatible; MSIE 5.0; Windows NT;
DigExt; DTS Agent
Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 5.0)
Fetch API Request
Mozilla/4.0 efp@gmx.net
Mozilla/5.0 (Version: [0-9][0-9][0-9][0-9] Type:
[0-9][0-9])
PBrowse [0-9].
PEval [0-9].
Poirot
Port Huron Labs
Production Bot
Program Shareware [0-9].[0-9].[0-9]
searchbot admin@google.com
snap.com beta crawler v[0-9]
sogou spider
sohu agent
Under the Rainbow [0-9].
Wells Search II
WEP Search [0-9]
Let bij het gebruiken van deze lijst even op de punten die eerder al zijn genoemd, bij voetnoot 1. Die gebruiksvoorwaarden voor de totale lijst met grabbers gelden onverminderd ook voor dit lijstje met
copyright © 2003-2006 Barbara de Zoete