Webbanalys

Hemsidan
 
Smygande intresse kan vara innehållsbevakning
 
Webbrobotar fyller till skillnad mot sökrobotar ett annat syfte, ett användningsområde är t.ex. att bevaka webbsidor så att när dessa uppdateras kan webbroboten larma om detta. De är ofta svåra att upptäcka eftersom anropen till webbplatsen oftast har längre intervall mellan sig, men väl upptäckta är det enkelt att ta reda på var de hör hemma.

Smygande webbrobot meddelar förändring
Tidigare i år så registrerades en domän avsedd för ett kommande projekt, och trots att webbplatsen inte lanserats så är den redan föremål för en rad besök. Ett av de återbesökande IP numrena (ytterst får robotar tar emot cookies) var så pass utspritt i tid att det var svårt att upptäcka ett mönster vid en första studie av loggfilerna, men en analys av loggfilerna med hjälp av lite speciella verktyg gjorde det möjligt.
 
         ?

Med 7 dagars intervall anropades domämnen, då den just nu saknar egentligt innehåll finns det endast ett fåtal anledningar att anropa den på detta vis. Den mest troliga är att man vill få reda på när sidan uppdateras och forumet kommer igång, och istället för att manuellt besöka sidan så kopplades en webbrobot in på uppgiften.
 
Av den anledningen finns nu en länk för att anmäla sitt intresse så får man ett email när det hela dras igång, uppenbarligen hade det varit bra att lägga ut detta från start. Förhoppningsvis kommer den som aktiverat webbroboten att inom 7 dagar få ett larm och läsa sidan, och kan därmed avbryta övervakningen av startsidan för det kommande webbanalysforumet.
 
Vett och etikett för webbrobotar
Att robotar får inte överbelasta webbservrar med en skur av anrop är givet, och liknande webbrobotar som den ovan anropar så sällan att det inte är ett problem. Men de bör även ange kontaktinformation, länk, eller email till den som ansvarar för den. Webbrobotar som anger en agentsträng som är tom (i loggfiler syns detta som ett fält utan innehåll, i.e. "-" på t.ex. en Apache server) kan bli föremål för exkludering.
 
Det innebär att i robots.txt filen anges att roboten inte får besöka webbplatsen, och dessa direktiv bör en webbrobot följa. Skulle det visa sig att en robot inte följer detta så är den enklast att i brandväggen helt stänga ned tillgång till webbplatsen för den IP nummer serie som roboten använder, något som dessutom blockerar samtliga användare som använder serien från att nå webbinnehållet på servern.
 
Virus och annat elände
Just ett tomt agentfält är även kännetecknet för virus och annat elände som t.ex. webbrobotar som söker efter e-post adresser att lägga till i spamdatabaser. I en Apache servers loggfiler är det bara att ta ut samtliga rader med "-" "-" "-" för att finna på dessa, och det gör man enklast med verktyg som kan extrahera strängar ur textfiler (prova gärna LogSaw som du finner via länk nedan).
 
Övervakningstjänster ett alternativ
Istället för att själv driftsätta en övervakningsrobot så är det enklaste att anmäla sig till webbplatsens nyhetsbrev, eller använda någon av det otal övervakningstjänster som finns på nätet. Att denna webbplats övervakas på någons uppdrag är tydligt när det dagliga anropet kommer från ett system som anger följande agentsträng:
 
Mozilla/4.0 (compatible; ChangeDetection/1.0 (admin@ChangeDetection.com)
 
Antihack övervakning
Ett annat användningsområde för en webbrobot är att övervaka en webbsida och i den söka efter textinnehåll, ett exempel är företag som önskar få larm om när t.ex. ordet "hack" förekommer på deras hemsida, t.ex efter sidan hackats av någon. Webbrobotar kan även användas för nyhetsbevakning, d.v.s. att man regelbundet kontrollerar t.ex. olika nyhetssajter efter textsträngar där det egna företagsnamnet förekommer i texterna på startsidan.
 
Summering
Att webbrobotar besöker webbplatser regelbundet är ett faktum, och de kan vara svåra att upptäcka i den mängd av anrop som en webbplats vanligtvis får. Många av dessa är avsedda att larma vid förändringar på de anropade sidorna, och har en besöksfrekvens som varierar mellan en gång on dagen och en gång i veckan.
 
Kan användare anmäla sig till nyhetsbrev eller liknande på den övervakade webbplatsen så blir webbrobotens övervakning egentligen onödigt i praktiken, men det innebär inte att övervakningen upphör.
 

 
Länkar till mer information:
LogSaw (gratis verktyg för loggfilsfiltrering)
Page change detection

 
* Bilderna i artikeln är manipulerade för att passa sidformatet.
«««