Webbanalys

Hemsidan
 

Usla robotar fyller loggfiler
 
Sökrobotar har använts länge för informationsinhämtning från webbplatser, och med en robots.txt fil i roten av webbplatsen kan man styra dem. Ett tips är att ibland syna vad de gör i samband med besök av den enkla anledning att det finns många robotar som har ett oönskat beteende. En del är rent av defekta och bör blockeras, med logganalys av loggfilerna kan nödvändig fakta tas fram!

Anrop från sökrobotar
Ju längre en webbplats varit igång ju fler sökrobotar som hittar dit, antingen via länkar på andra webbplatser eller genom anmälan till sökroboten om att ett besök skall ske. Mängden anrop från sökrobotar varierar, och de är nödvändiga för att synas i sökmotorernas resultatlistor. Bra robotar sänder anrop till en webbplats i intervall och undviker intensiva skurar, allt för att så obemärkt för webbplatsens besökare kunna insamla information.
 
Men alla anrop från sökrobtar är inte av godo, en del av anropen kan dessutom störa och belasta webbservern om de kommer i tillräckligt stort antal över en kort tidsrymd. Vad som får anropas av allt innehåll på en webbplats kan styras med en robots.txt fil, i den anges vad som skall exkluderas av sökrobotar. Speciella robotar kan dessutom namnges i de fall att man önskar för dem specifikt ange områden på webbplatsen som de inte får besöka.
 
Kontroller nödvändiga
Tyvärr så finns det många robotar som inte följer de anvisningar som finns i robots.txt filen, vid en närmare analys kan man finna exempel på hur sökrobotar bryter mot anvisningarna och besöker delar av en webbplats som webbplatsägaren inte önskar ha indexerade. Sedan finns det usla robotar som är så dåligt programmerade att de inte borde ha släppts lösa på Internet.
 
Uselt programmerad Sproose robot anropar
Senaste exemplet på en sådan usel sökrobot är eländet som folket på Sproose släppt lösa. Koden tycks vara i ett mycket tidigt skede och de har trots detta satt igång med att anropa publika webbplatser, och resultatet blir mindre lyckat. I detta fall så får sökroboten fnatt om en webbsida innehåller JavaScript kod, den försöker bryta ner koden till bitar som den sedan anropar (se ovan).
 
Uppdatera robots.txt
Detta belyser vikten av att med viss frekvens syna sina inställningar i robots.txt och samtidigt analysera vad sökrobotarna gör i samband med besök. Enligt information på Sproose lyder deras sökrobot anvisningar i robots.txt, därmed kan den enkelt blockeras. Dock skall man inte glömma bort att sökrobotar kan trots en försäkran om att följa anvisningar helt ignorera dessa.
 
Skulle så vara fallet så återstår att blockera i brandväggen de IP nummer som används av sökroboten, och i vissa fall hela IP nummerserier som företaget ifråga använder.
 
Håll utkik efter nya robotar
Att filtrera bort robotar från data i loggfiler är ett evighetsarbete liksom underhållet av en robots.txt fil, men med en aktiv analys av besökande robotar kan man bättre kontrollera vad dessa gör på webbplatsen. Med enkla verktyg som AWstats kan rapporter enkelt tas fram.
 
Lista på besökande sökrobotar med AWstats
Robotar som anropar robots.txt filen innan de går vidare med fler anrop till webbplatsen finner man siffror för efter plus tecknet i hits kolumnen. Lämpligen bör man helt blockera robotar i brandväggen om dessa gör ett stort antal anrop upprepade gånger och även ett stort antal felaktiga anrop (OBS! Ej anrop som orsakar 404 fel eftersom dessa kan vara del av sökrobotens process för att ta bort innehåll från indexet som försvunnit från webbplatsen).
 
Loggfiler innehåller spåren
Trots att fler och fler går över till en klientbaserad datainsamling så förblir loggfilerna kvar, främst därför att de troligen glöms bort men de bör inte heller tas bort. Det som händer på server sidan återfinns endast i loggfilerna, sökrobotanrop är just en sådan sak som den som sökmotoroptimerar analyserar fram i loggfilerna. Att sökrobotarna besöker sidor som optimerats kan man nämligen bara se i loggfilerna!
 
Upprepade massanrop från sökrobotar som hysteriskt efterfrågar sidor kan snabbt fylla på en loggfil, och det finns fall då en anstormning av anrop fått webbservrar att komma till ett kritiskt läge då diskutrymmet tagit slut. Istället för att låta loggfilerna fyllas med en större mängd oönskade noteringar av anrop kan man med en proaktiv blockering och robotanvisningar minska mängden. Hårddisk är dock billigt, administratören av webbservern är rimligen dem som avgör i slutändan.
 
Summering
Med analyser på hur sökrobotar anropar webbplatsen kan en webmaster fortlöpande justera robots.txt filen för att få önskad indexering, men även upptäcka oönskad aktivitet och med olika medel blockera usla sökrobotar.
 
Logganalys för att studera vad sökrobotarna är lika aktuellt idag trots en med tiden total dominans av den klientbaserade insamlingstekniken för analyser av besök, besökare, och sidvisningar.
 

 
Länkar till mer information:
Robotfiltrering ett Sisyfos arbete
Robots Exclusion
Sproose Crawler
List of User-Agents (Spiders, Robots, Crawler, Browser)

 
* Bilderna i artikeln är manipulerade för att passa sidformatet.
«««