Robotfiltrering ett Sisyfos arbete

För en webbanalytiker är borttagandet av robotanrop som hamnar i webbdatat (förr loggfilen) ett Sisyfosarbete. Det innebär upprepade justeringar av filtret för exkludering av sökrobotar, och dessa robotanrop snedvrider hela tiden det resultat som webbanalysen ger. Problemet är enkelt att undanröja, säkerställ att du använder ett system som exkluderar detta från rapporterna!

Lista på filtrerade robotar

Evighetsarbete inom webbanalys

Sisyfos är en figur som förekommer i grekisk mytologi, och han drabbades av ett öde som påminner om tillvaron för en del webbanalytiker (mer om Sisyfos här).

Den som arbetar med ett verktyg för webbanalys vilken mätdata inte filtreras automatiskt känner nog igen sig i detta moment, ett ständigt pågående arbete utan slut med att exkludera anrop från sökrobotar (även kallat sökspindlar) och andra likartade system.

Utan ett robotfilter så sammanblandas sidvisningar och besöksdata på riktiga besökare med data som orsakas av robotar, som resultat blir webbstatistiken missvisande.

Vissa webbstatistiksystem erbjuder robotfilter, men det är marginellt bättre än ett sockerpiller i det långa loppet av den enkla anledningen att ett sådant filter blir inaktuellt utan fortlöpande underhåll.

Dessutom så invaggar det användaren av verktyget i en falsk säkerhet, något som endast frekventa uppdateringar av verktyget ifråga kan temporärt råda bot på, men inte ens då kan man vara säker på att filtreringen fungerar fullt ut.

Om en robot dessutom inte anropar robots.txt överhuvudtaget så fungerar t.ex. inte den automatiska robot detekteringen i Awstats, och det finns många robotar som helt ignorerar att anropa just den filen. Frågan är då vad kan man göra för att lösa problemet?

Kontrollera robots.txt

Ju färre besökare en webbplats har desto större snedvridning medför robotbesöken.

Ett enkelt sätt att få fram en lista på normala robotar som besökt webbplatsen är att från loggfilen extrahera alla anrop till filen robots.txt, just den filen skall en robot som följer normala procedurer alltid anropa innan en webbplats indexeras.

Saknar din webbplats denna fil så har den som byggt den missat något grundläggande, i så fall kan du enkelt skapa den och lägga i roten på webbplatsen (mer on robots.txt här).

Dock är det många webbplatser som saknar en robots.txt fil trots att den är mycket enkel att skapa och är en grundläggande komponent för varje webbplats. Avsaknaden av denna fil ger även ännu en rad i tabellen för de fel som inträffat på webbplatsen, kika i tabellen för "pages not found" eller där felaktiga anrop till webbserven återfinns.

Som exempel kan nämnas att Sveriges kommuner är en homogen grupp webbplatser vilka undersökts, och resultatet var ett konstaterande att en bra bit över hälften av dessa webbplatser saknade denna fil.

Med en robots.txt fil korrekt konfigurerad och på plats elimineras felaktiga anrop efter den, och vad som skall indexeras av de seriösa sökmotorerna att regleras och förbättras.

Säkerställ korrekta mätvärden i din webbanalys

För att säkerställa att webbstatistiken blir korrekt krävs att de mätvärden som denna summeras är baserat på rätt mätdata, med ett fåtal kontroller kan man konstatera om så är fallet. Därför krävs ett ständigt arbete med robotexkludering, om så inte sker är siffrorna inte att lite på.